- 책 제목
- 통계 101 x 데이터 분석
- 출판연월
- 22년 10월
- 지은이
- 아베 마사토
실무에서 통계 지식은 아예 안 쓰이진 않는데, 높은 수준을 요하는 것이 아닌, 기본적인 지식을 누구나 쉽게 이해할 수 있게끔 설명하는 능력이 더 중요한 것 같다. 그래서 기본 개념에 대한 이해를 다잡고, 쉽게 설명하기 위한 역량을 기르고자 책을 구했다.
제 1종 오류와 제 2종 오류 (139p)
- 대립가설: 밝히고 싶은 가설
- 귀무가설: 밝히고자 하는 가설의 부정 명제
- 1종 오류(false positive): 귀무가설이 옳음에도 귀무가설을 기각하고 대립가설을 채택. 1종 오류가 일어날 확률을 alpha로 나타냄
- 약의 효과가 없는데도(귀무 옳음), 효과가 있다고 판단(대립 채택)
- 귀무가설이 옳다는 것은 알 수 없음. 모집단을 직접 알 수 없기 때문. 그래서 1종 오류가 얼마나 될지 알 수는 없음
- 다만 상한을 정하는 방식 등으로 이 오류 확률을 통제할 수 있음
- 귀무가설을 언제 기각할 것인지? alpha’ 보다 p 값이 작을 때라고 한다면, 이게 결국 alpha임
- 유의수준 alpha’ 값을 미리 0.05와 같은 값으로 정해서 alpha를 통제하는 셈
- 2종 오류(false negative): 대립가설이 옳음에도 귀무가설을 기각하지 않는 것. 2종 오류가 일어날 확률을 beta로 나타냄
- 실제론 약의 효과가 있는데(대립 옳음), 효과 있다고 보지 않는 판단(대립 기각 x)하는 것
- beta는 n이 커질수록 작아짐
- 그래서 1-beta가 80%가 되도록 표본 크기를 설계하는 것이 이상적임
- 또한 beta는 효과 크기(MDE..?)가 커질수록 작아짐
- 효과 크기가 클수록 분포가 겹치는 부분이 줄어들어 검출이 간단해지기 때문이라는데, 큰 효과를 검증하는 것은 그만큼 적은 표본으로도 충분히 검증하다는 직관적인 이해가 가능함
- MDE가 작은 지표일수록 많은 표본이 필요하다는 A/B test 스터디 내용과 상통함
회귀
- 책에선, 회귀를 ‘y=f(x)라는 함수를 통해 변수 사이 관계를 공식화하는 것’이라고 정의한 것이 인상 깊음
오즈
- 오즈(odds)란, 어떤 사건이 일어날 확률 p와 일어나지 않을 확률 1-p의 비율
- 확률 p를 [0, inf]의 범위로 변환한 값으로 볼 수 있음
- 원래 도박에서 쓰인 지표로, 예를 들어 p = 0.2이면 odds = 0.2 / 0.8 = 1/4 이므로, 이기면 판돈의 4배를 받을 수 있다는 지표로 사용되었음
- 이런 예시.. 이해가 그나마 쉬운 듯. 상식적인 개념이니까 알고 있을 것
재현성 위기
- 과학의 중요한 특징 중 하나인 재현성(reproducibility, replication)
- 누가 언제, 어디서 실험해도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다는 것
p-value
- p 값은 표본 크기에도 의존하며, n이 클 때는 작은 차이라 해도 p < 0.05가 될 수 있음
- 작은 효과를 검정하기 위해선 큰 n이 필요한 것과 같은 논리
- 따라서 검출하고자 하는 효과 크기를 사전에 설정하고, 표본 크기 n을 설정해야 함
- 그런데 이렇게 정석적으로 진행된 실험이 얼마나 될까…
- 필자는 p < 0.05에만 관심 두어서는 안되면, 효과 크기나 신뢰 구간을 같이 봐야 한다고 함
- 큰 표본은 반가운 것
베이즈 인수
- 위와 같은 p 값의 한계를 보완할 수 있는 지표
- 자세한건… 패스
p-hacking
- p가 0.05보다 작아질 때 까지 표본크기를 늘림
- 처음에는 n = 30으로 실험해서 p가 0.07인데, 이후 n = 40으로 실험했더니, p가 0.05보다 작아져서 이를 보고함
- 여러 요인을 탐색해서 그 중 p가 0.05보다 작은 것만 보고함
- 중간에 HARking 이란 개념이 나오는데, Hypothesis After the Results are Known의 약자로, 데이터를 얻어 결과 보고 나서 가설을 만드는 행위라고 함.
- 가설 설정이 중요함은 끊임없이 강조되고 있는데, 정작 안 지켜지는 경우가 꽤 많다. 그런 때를 대비해서라도 위 용어를 염두에 둘 것
인과와 상관
- 흔히 상관 != 인과라고 함. 인과를 파악하면 결국 input var를 가지고 output var를 통제하는 ‘개입’이 가능하기 때문
- 그럼 상관은 왜 중요하냐?
- 상관이 있다면 인과가 존재할 가능성이 있음을 의미
- 인과를 명확히 파악하기 전 단계로서 상관을 이용해서 인과와 관련된 변수 후보를 압축할 수 있음
- 상관관계를 통해 한쪽 변수로부터 다른 변수를 ‘예측’할 수 있음
- X를 바꾸면 Y가 어떻게 변화하는지가 아님
- 동일 조건에서 새로운 X를 관찰했을 때, 그로부터 Y 값을 예측하는 것
인과관계를 밝히려면?
- 인과를 밝히기 어려운 이유는 중첩 요인이 얼마나 있고, 각 중첩 요인의 영향력이 얼마나 되는지 파악하기 어렵기 때문
- 그러므로 요인을 통제하는 실험을 통해 인과 관계를 밝힐 수 있음 (Randomized Control Trial, Propensity Score Matching 등)
- RCT는 중첩 요인을 무효화시켜 인과를 밝힘
- RCT에는 흔히 우리가 접하는 A/B test가 있음
- RCT는 직접적인 개입을 하는 실험인데, 이런 개입이 불가능한 경우, 데이터에서 인과 효과를 추정해볼 수 있음
- 다중 회귀: 중첩 요인을 회귀 모델에 변수로 넣어서 계수를 추정하는 것
- 층별 해석: 중첩 요인을 기준으로 segment를 나눠 분석. 즉, 중첩 요인의 효과를 가능한 작게 쪼개는 셈
- PSM: 중첩요인 값이 비슷한 데이터를 짝지어 분석 = 중첩 요인 효과를 없애고, RCT와 비슷한 효과를 얻을 수 있음
- 이중차분법: Difference In Difference라고 하는데.. 잘 모르겠음
수리 모형
- 일단 모형이란? 현상에서 본질을 뽑아 간략화한 것. 복잡한 현상을 잘 이해하는 도구
- 세가지 종류가 있음
- 통계 모형: 이해, 예측, 제어가 목적. 귀납적 접근 방식
- 데이터를 이용해 모형화
- 상대적으로 적은 양의 데이터를 요함
- 단순한 구조로 해석이 쉬움
- 기계학습 모형: 예측 목적. 귀납적 접근 방식
- 데이터를 이용해 모형화
- 대량의 데이터 필요
- 복잡한 구조로 해석이 어려움
- 수리 모형: 이해, 예측, 제어가 목적. 연역적 접근 방식
- 현상의 메커니즘을 가정해 모형화하는 것
- 파라미터를 바꾸면 발생하는 현상에 관심 있음
- 가상의 세계를 상정하고 어떤 규칙을 적용했을 때 무엇이 일어나는지 조사하는 방법
- 통계 모형: 이해, 예측, 제어가 목적. 귀납적 접근 방식
- 수리 모형은 크게 두가지로 나눌 수 있음
- 결정론 모형: 미분 방정식, 차분 방정식, 편미분 방정식
- 왜 결정론이라 할까? 특정 시각의 상태가 정해지면, 다른 시각의 상태는 하나로 결정되는 성질에 대한 것이라서 (생각해보면 확률과 반대되는 개념이긴 함. 공을 던지면 어디에 떨어질지 예측할 수 있는 것 등)
- 확률 모형: 무작위 행보, 마르코프 연쇄 (이게 바로 지금 이 글을 쓰는 이유… 학부 때 배운 확률 모형을 이렇게 뿌리부터 접근하니 등 긁히는 느낌)
- 확률적인 움직임이 본질인 현상. 예를 들어 도박의 결과.
- Random Walk
- Markov Process: 무작위 행보를 일반화한 확률 과정. 과거 상태와 관계없이 현재 상태에 따라 다음 상태가 결정되는 확률 과정 (이런 성질을 마크로프 성질이라고 함)
- 결정론 모형: 미분 방정식, 차분 방정식, 편미분 방정식
- 확률 과정: 확률적으로 시간 변동하는 현상을 기술하는 일종의 수리 모형