통계 101 x 데이터 분석

책 제목: 통계 101 x 데이터 분석
출판연월: 22년 10월
지은이: 아베 마사토

실무에서 통계 지식은 아예 안 쓰이진 않는데, 높은 수준을 요하는 것이 아닌, 기본적인 지식을 누구나 쉽게 이해할 수 있게끔 설명하는 능력이 더 중요한 것 같다. 그래서 기본 개념에 대한 이해를 다잡고, 쉽게 설명하기 위한 역량을 기르고자 책을 구했다.

제 1종 오류와 제 2종 오류 (139p)

대립가설: 밝히고 싶은 가설
귀무가설: 밝히고자 하는 가설의 부정 명제
1종 오류(false positive): 귀무가설이 옳음에도 귀무가설을 기각하고 대립가설을 채택. 1종 오류가 일어날 확률을 alpha로 나타냄
- 약의 효과가 없는데도(귀무 옳음), 효과가 있다고 판단(대립 채택)
- 귀무가설이 옳다는 것은 알 수 없음. 모집단을 직접 알 수 없기 때문. 그래서 1종 오류가 얼마나 될지 알 수는 없음
- 다만 상한을 정하는 방식 등으로 이 오류 확률을 통제할 수 있음
- 귀무가설을 언제 기각할 것인지? alpha’ 보다 p 값이 작을 때라고 한다면, 이게 결국 alpha임
- 유의수준 alpha’ 값을 미리 0.05와 같은 값으로 정해서 alpha를 통제하는 셈
2종 오류(false negative): 대립가설이 옳음에도 귀무가설을 기각하지 않는 것. 2종 오류가 일어날 확률을 beta로 나타냄
- 실제론 약의 효과가 있는데(대립 옳음), 효과 있다고 보지 않는 판단(대립 기각 x)하는 것
- beta는 n이 커질수록 작아짐
- 그래서 1-beta가 80%가 되도록 표본 크기를 설계하는 것이 이상적임
- 또한 beta는 효과 크기(MDE..?)가 커질수록 작아짐
- 효과 크기가 클수록 분포가 겹치는 부분이 줄어들어 검출이 간단해지기 때문이라는데, 큰 효과를 검증하는 것은 그만큼 적은 표본으로도 충분히 검증하다는 직관적인 이해가 가능함
- MDE가 작은 지표일수록 많은 표본이 필요하다는 A/B test 스터디 내용과 상통함

회귀

책에선, 회귀를 ‘y=f(x)라는 함수를 통해 변수 사이 관계를 공식화하는 것’이라고 정의한 것이 인상 깊음

오즈

오즈(odds)란, 어떤 사건이 일어날 확률 p와 일어나지 않을 확률 1-p의 비율
확률 p를 [0, inf]의 범위로 변환한 값으로 볼 수 있음
원래 도박에서 쓰인 지표로, 예를 들어 p = 0.2이면 odds = 0.2 / 0.8 = 1/4 이므로, 이기면 판돈의 4배를 받을 수 있다는 지표로 사용되었음
이런 예시.. 이해가 그나마 쉬운 듯. 상식적인 개념이니까 알고 있을 것

재현성 위기

과학의 중요한 특징 중 하나인 재현성(reproducibility, replication)
누가 언제, 어디서 실험해도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다는 것

p-value

p 값은 표본 크기에도 의존하며, n이 클 때는 작은 차이라 해도 p < 0.05가 될 수 있음
작은 효과를 검정하기 위해선 큰 n이 필요한 것과 같은 논리
따라서 검출하고자 하는 효과 크기를 사전에 설정하고, 표본 크기 n을 설정해야 함
그런데 이렇게 정석적으로 진행된 실험이 얼마나 될까…
필자는 p < 0.05에만 관심 두어서는 안되면, 효과 크기나 신뢰 구간을 같이 봐야 한다고 함
큰 표본은 반가운 것

베이즈 인수

위와 같은 p 값의 한계를 보완할 수 있는 지표
자세한건… 패스

p-hacking

p가 0.05보다 작아질 때 까지 표본크기를 늘림
처음에는 n = 30으로 실험해서 p가 0.07인데, 이후 n = 40으로 실험했더니, p가 0.05보다 작아져서 이를 보고함
여러 요인을 탐색해서 그 중 p가 0.05보다 작은 것만 보고함
중간에 HARking 이란 개념이 나오는데, Hypothesis After the Results are Known의 약자로, 데이터를 얻어 결과 보고 나서 가설을 만드는 행위라고 함.
가설 설정이 중요함은 끊임없이 강조되고 있는데, 정작 안 지켜지는 경우가 꽤 많다. 그런 때를 대비해서라도 위 용어를 염두에 둘 것

인과와 상관

흔히 상관 != 인과라고 함. 인과를 파악하면 결국 input var를 가지고 output var를 통제하는 ‘개입’이 가능하기 때문
그럼 상관은 왜 중요하냐?
- 상관이 있다면 인과가 존재할 가능성이 있음을 의미
- 인과를 명확히 파악하기 전 단계로서 상관을 이용해서 인과와 관련된 변수 후보를 압축할 수 있음
- 상관관계를 통해 한쪽 변수로부터 다른 변수를 ‘예측’할 수 있음
  - X를 바꾸면 Y가 어떻게 변화하는지가 아님
  - 동일 조건에서 새로운 X를 관찰했을 때, 그로부터 Y 값을 예측하는 것

인과관계를 밝히려면?

인과를 밝히기 어려운 이유는 중첩 요인이 얼마나 있고, 각 중첩 요인의 영향력이 얼마나 되는지 파악하기 어렵기 때문
그러므로 요인을 통제하는 실험을 통해 인과 관계를 밝힐 수 있음 (Randomized Control Trial, Propensity Score Matching 등)
- RCT는 중첩 요인을 무효화시켜 인과를 밝힘
RCT에는 흔히 우리가 접하는 A/B test가 있음
RCT는 직접적인 개입을 하는 실험인데, 이런 개입이 불가능한 경우, 데이터에서 인과 효과를 추정해볼 수 있음
- 다중 회귀: 중첩 요인을 회귀 모델에 변수로 넣어서 계수를 추정하는 것
- 층별 해석: 중첩 요인을 기준으로 segment를 나눠 분석. 즉, 중첩 요인의 효과를 가능한 작게 쪼개는 셈
- PSM: 중첩요인 값이 비슷한 데이터를 짝지어 분석 = 중첩 요인 효과를 없애고, RCT와 비슷한 효과를 얻을 수 있음
- 이중차분법: Difference In Difference라고 하는데.. 잘 모르겠음

수리 모형

일단 모형이란? 현상에서 본질을 뽑아 간략화한 것. 복잡한 현상을 잘 이해하는 도구
세가지 종류가 있음
- 통계 모형: 이해, 예측, 제어가 목적. 귀납적 접근 방식
  - 데이터를 이용해 모형화
  - 상대적으로 적은 양의 데이터를 요함
  - 단순한 구조로 해석이 쉬움
- 기계학습 모형: 예측 목적. 귀납적 접근 방식
  - 데이터를 이용해 모형화
  - 대량의 데이터 필요
  - 복잡한 구조로 해석이 어려움
- 수리 모형: 이해, 예측, 제어가 목적. 연역적 접근 방식
  - 현상의 메커니즘을 가정해 모형화하는 것
  - 파라미터를 바꾸면 발생하는 현상에 관심 있음
  - 가상의 세계를 상정하고 어떤 규칙을 적용했을 때 무엇이 일어나는지 조사하는 방법
수리 모형은 크게 두가지로 나눌 수 있음
- 결정론 모형: 미분 방정식, 차분 방정식, 편미분 방정식
  - 왜 결정론이라 할까? 특정 시각의 상태가 정해지면, 다른 시각의 상태는 하나로 결정되는 성질에 대한 것이라서 (생각해보면 확률과 반대되는 개념이긴 함. 공을 던지면 어디에 떨어질지 예측할 수 있는 것 등)
- 확률 모형: 무작위 행보, 마르코프 연쇄 (이게 바로 지금 이 글을 쓰는 이유… 학부 때 배운 확률 모형을 이렇게 뿌리부터 접근하니 등 긁히는 느낌)
  - 확률적인 움직임이 본질인 현상. 예를 들어 도박의 결과.
  - Random Walk
  - Markov Process: 무작위 행보를 일반화한 확률 과정. 과거 상태와 관계없이 현재 상태에 따라 다음 상태가 결정되는 확률 과정 (이런 성질을 마크로프 성질이라고 함)
확률 과정: 확률적으로 시간 변동하는 현상을 기술하는 일종의 수리 모형