Look, See, Why

[기초통계] 회귀분석 본문

사회학 공부/통계 및 데이터분석

[기초통계] 회귀분석

S YE 2026. 5. 20. 22:27

[단순선형회귀모형]

종속변수를 Y라 하고, 독립변수를 X라 할 때 두 변수간의 선형 모델은

cf. 비선형을 선형처럼 만들어서 쓰는 경우가 있다.

 

[보통최소제곱추정(OLS)]

종속변수와 독립변수 간의 관계를 가장 잘 나타내는 best fit인 직선을 추정한다.

=추정값과 관찰값의 차이, 즉 오차가 최소가 됨을 의미한다

추정값 : 보통의 사람들은 이럴 것이다 하는 값 (집단적, 평균적인 값)

이거의 확장판이 WLS, ML, GLS, GEE 등등이 있다..(지금도 개발 중)

두 변수 간의 관계를 가장 잘 설명한다는 것은 추정된 직선상에 있는 각 점들과 각 종속변수와 독립변수들의 관찰값들과의 수직 거리인 오차들이 최소가 됨

[오차와 잔차의 차이]

오차(error) : 참값(실제 값)과 관찰값 간의 차이

오차는 이론적이고 미지의 값

잔차(residual) : 추정값(예측값)과 관찰값 간의 차이

데이터를 통해서 값을 얻을 수 있다. 잔차는 확률오차와 닮았을 거라고 생각을 한다.

그런데 이 오차는 random error을 가정함. -> 잔차가 random 이 아니라면 오차도 문제가 있다고 추측.

 

[모형 형태에 대한 가정]

-선형성 : X와 Y를 관계시키는 모형이 회귀계수에 대하여 선형이다

ㄴOLS는 비선형을 추정할 수 없다.

 

[오차에 대한 가정]

-오차의 평균은 0 

ㄴ오차항과 X(독립변수)가 서로 상관관계가 없다는 것을 의미(exogeneity(외생성))

(이것이 성립되는지 안하는지가 매우 중요한데,

패널, 공간분석, 다층 모형 등등 다 오차의 외생성 가정이 위배되기 때문에 나온 것이다

ex. owner risk가 고정되어 있다고 가정 --> fixed effects), 도구변수(IV)모형 등

-등분산성(homogeneity)

ㄴ오차는 동일한(but 알려지지 않은) 분산을 가진다

ㄴ그러나 이 가정은 거의 성립되지 않는다.

-독립성(conditionally uncorrelated observations)

ㄴ오차의 평균이 0이라는 가정만으로 일치추정량이 될 수 없으며,

오차의 분포가 identically and independently distributed (등분산+독립)해야 OLS의 VCE(회귀계수의 표준오차를 추정하는 공식)가 일관된 추정을 하게 됨

-쉽게 말해 서로 영향을 주지 않는다는 것이다.

ㄴ그러나 이 가정도 깨지기가 쉽다.

ex. 대통령 지지도를 조사한다고 했을 때, 오차에 '지역'이 있다

--> 다층모형과 공간분석 

-정규성

 

[예측(독립)변수에 대한 가정]

-독립변수는 확률변수가 아니다

ㄴ독립변수 X값은 연구자가 고정시킨 상수로 간주한다. (X는 반복 표집을 해도 항상 같은 값을 가지며, 불확실성은 오차항에서만 발생한다)

-값은 오차없이 측정됨

ㄴX는 측정오차없이 완벽하게 관측된다고 가정

-독립변수는 선형 독립적이다

ㄴ어떤 독립변수도 다른 독립변수들의 완전한 선형 결합으로 표현되지 않는다는 가정.

 

[가설검정과 신뢰구간]

회귀계수가 통계적으로 유의한지 검정할 때 t검정을 사용한다.

귀무가설 : X와 Y 사이에는 선형관계가 없다

 

[결정계수]

-결정계수(R스퀘어)=SSR/SST (모형이 Y의 변동을 얼마나 설명하는지를 0~1 사이 비율로 보여준다)

ㄴ회귀선이 Y를 얼마만큼 설명했는가?를 보여준다

-독립변수를 추가하면 R스퀘어가 올라가는 문제가 있기 때문에(의미없는 변수를 넣어도 이런 문제가 생긴다) --> Adjusted R2(수정된 결정계수)를 사용

ㄴ표본의 크기와 parameter(독립변수의 수) 를 보정함  

 

[다중공선성]

-독립변수들끼리 강하게 상관되어 있을 때 발생

OLS 추정치 자체는 불편추정량이지만 표준오차가 부풀면 실제로 유의미한 변수가 유의하지 않게 나오기도 한다

진단은 VIF(분산확대인자) 를 사용.

 

[특이값과 영향점]

영향점은 특정 관측개체를 제거했을 때 회귀계수, 적합값, t값 등 모형에 큰 변화가 생기는 점을 의미한다.

특이점 : 종속변수(Y) 방향의 특이값은 적합값으로부터 멀리 떨어져 큰 표준화잔차를 가지는 관측개체로, 표준화잔차가 평균(0)으로부터 2 또는 3 표준편차 이상 떨어진 점을 말함

독립변수(X) 방향의 특이값은 지레값(leverage value)을 통해 판별하는데, 지레값의 평균 (p+1)/n 보다 2배 이상 큰 값을 가지면 특이점으로 봄

 

[이분산성]

등분산성 가정은 오차 ε₁, ε₂, ..., εₙ이 모두 동일한 분산 σ²을 가진다는 것인데, 이것이 위배된 상태가 이분산성.

발생원인 : 독립변수의 값이 커질수록 오차의 분산도 커지는 경우(가장 흔함), 독립변수의 극단값에서 오차가 증가하는 경우, 응답자의 측정오차 차이, 군집 표본추출로 인한 집단 내 상관관계 등...

이분산성의 경우 효율추정치가 아니게 되어 잘못된 추론이 될 수 있다.

->해결 : robust standard errors, Bootstrap, Jackknife 등등..

 

[비표준화회귀계수]

-비표준화회귀계수는 공분산의 문제와 마찬가지로, 독립변수의 측정척도에 따라 좌우됨.

-특히 독립변수가 둘 이상은 다중회귀분석에서 종속변수에 대한 독립변수의 상대적인 영향력의 크기를 비표준화회귀계수를 통해 판단할 수 없음

-->표준화 : Z점수(평균 0, 표준편차 1)로 변환한 뒤 회귀분석을 실시한 계수임

표준화한 후 비교를 한다. -> 상대적인 영향력(중요도)의 크기를 비교할 수 있음

ex. SEI (직업의 사회경제적 지위 지수) 직업 회귀식

*조절효과 : 독립변수가 종속변수에 미치는 영향의 크기나 방향이 제3의 변수의 수준에 따라 달라진다

ex. "운동량(X)이 체중 감소(Y)에 미치는 효과가 식단 조절 여부(W)에 따라 다르다"

 

[다중공선성]

[원인]

-더미변수의 부적합한 사용(1개의 범주에 대한 변수를 생략하지 않았을 경우)  cf.더미변수는 상수와 겹치기 때문에 하나를 버린다.

-다른 변수를 생성하기 위해 사용된 변수가 회귀식에 또 포함된 경우 (가구소득, 남편소득, 아내소득이 회귀식에 다 들어감)

-거의 같은 속성을 측정한 변수가 포함된 경우

-두 변수끼리 상관관계가 매우 높은 변수가 포함된 경우 (사회경제적 지위와 직업위세)

 

[문제] 다중공선성은 표준오차(S.E)를 증가시켜 t값을 작게 만들기 때문에,

본래 유의미한 변수조차도 유의미하지 않다는 결과가 나온다.

-->VIF (분산확대인자) 

ㄴR스퀘어 값이 1에 가까워질수록(클 수록) VIF는 매우 커짐.

ㄴ10을 초과하면 심각한 다중공선성의 문제가 있다고 판단한다.

 

[해결방법]

-VIF가 10이상이면 회귀식에서 제외하기. 결합가설검정을 통해 일정한 제약을 부여하여 사용하기

-요인점수를 산출하여 활용하는 방법

 

불편성, 일치성은 연구자가 조절하기 어렵지만 효율성은 그나마 개선이 가능함.

 

[이분산성 문제의 해결방법]

-이분산성은 오차항의 분산이 관측치마다 다른 상태.

X값이 커질수록 잔차의 퍼짐도 커지거나 작아짐.

-robust standard errors - 샌드위치 추정을 이용한 것으로, 가중치를 이용한다.

-resampling 방법 - Bootstrap 이용. 복원추출.