Look, See, Why

[기초통계] t 검정 (차이검정) 본문

사회학 공부/통계 및 데이터분석

[기초통계] t 검정 (차이검정)

S YE 2026. 4. 1. 20:48

 
<Z검정>

-모집단의 분산(표준편차)를 이미 알고 있어야 한다는 것이 가장 문제임.
하지만 중심극한정리에 의해 n이 커질수록 t분포는 z분포에 완벽하게 수렴하기 때문에 표본이 클 때는 t검정 = z검정
z검정은 다소 까다롭기 때문에 표본 크기 상관없이 안전하게 쓸 수 있는 t검정을 많이 씀..
물론 모비율 검정을 할 때는 z검정을 한다.
 
<t분포>
-양조장에서 일하던 윌리엄 고셋은 표본 크기에 따라 분포의 형태가 변해야 함을 깨닫고 'Student'라는 필명으로 t분포 발표
(소표본일 때 t분포를 사용한다)

 
-t분포는 좀 낮고 꼬리가 두껍다. 표본이 적어서 분산이 크기 때문 + 극단값들이 나타날 확률이 더 높음
-샘플 사이즈가 크다면 z분포와 같아진다. (데이터는 항상 천 개 이상을 쓰도록 하자.)
 
<t 검정>
-t검정은 불확실성을 반영하여 귀무가설 기각에 더 엄격한 기준을 적용한다.
-t-검정은 "차이검정"이다. 
-F-검정은 "비율검정" (->분산 비율을 검정. 세 집단의 평균 차이를 검정하기 위한 효율적인 방법 중의 하나이다)  
-t값=두 집단의 평균의 차이/표준오차
-오류가 작은 것을 선택하는 것이 가설검정이다. 오류는 작을 수록 좋다
-검정통계량은 수집한 표본 데이터로부터 직접 계산해낸 값 (t값, z값, F값 등등..)
기준점으로부터 표본의 결과가 얼마나 멀리 떨어져 있는지를 표준오차 단위로 측정한다.
검정통계량의 절댓값이 클수록 내 데이터가 보여주는 '차이'가 크다는 것을 의미한다.
-임계값은 미리 설정한 유의수준(보통 알파=0.05)에 따라 이론적인 확률분포표에서 찾아낸 고정된 기준선이다. 
이 선을 넘어가면 통계적으로 의미가 있는 진짜 차이임 (커트라인 같은 것)
내 데이터의 검정통계량이 기각역에 떨어지면 영가설(귀무가설)을 기각하게 된다.




 
<t검정을 위한 기본 가정>
-무작위 표집 : 데이터는 모집단으로부터 무작위로 추출되어야 하며 표본 선택 과정에서 편향이 없다
-독립성 : 각 관측치는 서로 통계적으로 독립적이다
-정규성 : 데이터가 추출된 모집단이나 표본 평균들이 정규분포를 따른다
-등분산성 : 비교하고자 하는 두 독립된 집단의 모집단의 분산이 서로 같아야 한다 (독립표본t검정에서)