Look, See, Why

[기초통계] 카이제곱 분포와 상관분석 본문

사회학 공부/통계 및 데이터분석

[기초통계] 카이제곱 분포와 상관분석

S YE 2026. 5. 6. 20:17

GLM(일반화 선형모형) 그룹들 - 선형회귀, 로지스틱 회귀, 포아송 회귀 ...

 

-카이제곱 검정은 범주형 데이터간의 관계를 분석하거나, 관측빈도가 기대빈도와 얼마나 다른지를 검정한다.

-카이제곱분포는 단일 모집단으로부터 추출한 표본분산과 모집단분산의 비를 나타내는 확률변수에 대한 검정에서 활용되는 분포.

ㄴ연속확률분포로서 확률변수는 항상 양의 값만을 가짐, 오른쪽 꼬리를 가진 비대칭 분포

ㄴ자유도에 의해 모양이 결정되며 자유도가 커질수록 정규분포에 근접

 

-카이제곱 검정을 하려면 빈도교차표를 먼저 만들어야 한다. 교차분석을 하고 통계량을 만들 때 카이제곱 통계랑을 가져다 쓰는 것임.

-빈도교차표는 카이제곱 검정의 시작. 관찰값과 기대값의 차이를 보고, 이를 통해서 카이제곱 통계량을 산출한다.

ㄴ카이제곱 통계량 = (관측값-기대값)제곱 / 기대값

ㄴ값이 클수록 관측값-기대값의 차이가 크다는 것.

-카이제곱 검정은 관계의 유무는 알려주지만 관계의 방향이나 강도는 알려주지 않는다.

(ex. 성별에 따라 흡연 비율이 다른 경우 '관계가 있다'라고만 한다.)

 

[카이제곱 검정과 F검정]

-카이제곱 검정과 F검정 모두 분산의 개념을 기반으로 하여, 귀무가설이 참일 때 기대되는 분포와 실제 관측값의 차이를 측정함

-F분포는 두 카이제곱 분포의 비율로 정의됨

F = (χ² / df₁) / (χ² / df₂)

ㄴF분포는 카이제곱 분포로부터 파생되었다고 보면 됨 (t, F, 카이제곱은 모두 같은 수학적 뿌리를 가짐. t제곱=F)

 

[상관분석]

-벡터 : 크기와 방향을 표현

-두 연속형 변수 사이에 선형적 관계가 있는지, 있다면 얼마나 강하고 어떤 방향인지(+인지 -인지) 분석.

-공분산 : 두 변수가 함께 변하는 정도를 측정. but 단위에 종속적 (ex. cm와 m의 분산(차이의 제곱) 차이가 커짐)

---> 피어슨 상관계수 : 각 편차들을 표준편차로 나눔. 절대적으로 비교하기 위해서. -1부터 1까지

(피어슨 말고도 스피어만, 켄달 상관계수도 있음)

-회귀분석과 달리 무엇이 원인이고 결과인지는 지정하지 않는다.

 

 

어떤 것들은 선형적인 관계만 없을 뿐이지 관계가 있는 것들도 있다.