| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- AHP분석
- Topicmodeling
- 데이터분석
- 논술대회
- 아도르노
- LDA
- 취준연구
- 사회학
- 베이지안통계학
- HLM
- 파슨스
- 계몽의변증법
- 청년비경제활동인구
- 광기의역사
- 통계학분포
- 육체의 변증법
- LDA분석
- 뒤르켐
- 행렬
- 독립표본t검정
- 데이팅앱
- 동시출현의미망
- 고급통계학
- 베버
- 청년연구
- 세종시
- 고급통계
- 공동생산
- Grouped-BarChart
- 취업준비생연구
- Today
- Total
Look, See, Why
[기초통계] 자유도, 분산분석(평균차이 검정), F검정(분산비 검정) 본문
-자유도로 나누는 이유? 불편추정량을 얻기 위함이다.
-수학적 설명으로 도출할 수 있음, 표본평균을 이용할 경우 항상 갭(bias)가 있게 된다.
n-1로 나누어야 불편추정량(bias가 없이 추정하기 위해서임)이 된다.
[분산분석]
평균차이를 한 번에 적용할 수 있는 방법을 찾다가 평균차이검정(t검정)에 분산을 사용한 것임.
엄밀히 말하면 세 집단 이상의 평균차이검정을 효율적으로(한 번에) 하기 위해서 분산분석을 사용하는 것임.
평균이 같은지 틀린지를 알고 싶은것임. 쓸데없이 독립표본t검정을 여러 번 하면 힘듦.
[분산분석 원리]
전체 데이터가 흩어진 정도를 두 부분으로 나눈다.
Y의 변동=설명된 변동+설명되지 않은 변동
(yᵢⱼ − ȳ) = (ȳⱼ − ȳ) + (yᵢⱼ − ȳⱼ) 이걸 제곱해서 합치면
SST(총 제곱합)=SSB(집단 간 제곱합between)+SSE(집단 내 제곱합within)
이 제곱합을 자유도로 나누어서 제곱평균(Mean Square)을 구한다

F=MSB(그룹 간 분산 between)/MSE(그룹 내 분산 within)
F값이 크다는 것은 그룹간 차이가 그룹 내 차이(우연)보다 크다는 것임. -> 귀무가설을 기각한다.
F값이 0에 가깝다는 것은 그룹 간의 차이가 오차 수준이라는 것 = 그냥 우연 -> 귀무가설 기각 실패
F검정=분산비 검정
[등분산 가정]
일반적인 ANOVA는 '모든 그룹의 분산이 같다'고 가정하는데, 현실에서는 이 가정이 깨지는 경우가 많다.
등분산 가정이 깨질 때는 그냥 ANOVA를 쓰면 결과가 왜곡될 수 있으므로 Welch F-test를 사용한다.
분산이 크고 표본이 작은 그룹은 (신뢰도가 낮으니) 가중치(Wj)를 낮게 줌
분산이 작고 표본의 크기가 큰 그룹은 (신뢰도가 높으니) 가중치(Wj)를 높게 줌
회귀분석 = 전체 평균을 벗어나게 만드는 것(차이를 만드는 것)을 확인하는 것임 (anova랑 같은 원리임)
회귀분석의 SST(Y전체가 흩어진 정도)=SSR(X로 설명된 변동)+SSE(X로 설명 못한 변동)
R스퀘어(결정계수) 역시 설명된 변동/전체 변동이다. '그룹 간 차이가 전체 변동의 몇 %를 설명하는가?'
One-Way ANOVA(일원분산분석) = 독립변수 1개
MANOVA = 여기서 M은 multiple. (종속변수가 2개 이상)
[사후검정]
누가 다른 건지를 파악하는 것.
기본적으로 여기에서도 표본크기가 같을 때 사용
ex.Turkey-HSD, Turkey-Kramer(표본크기가 다를 때 쓸 수 있다)
'사회학 공부 > 통계 및 데이터분석' 카테고리의 다른 글
| [기초통계] 회귀분석 (0) | 2026.05.20 |
|---|---|
| [기초통계] 카이제곱 분포와 상관분석 (0) | 2026.05.06 |
| 추적 60분 은둔중년 다큐멘터리 유튜브 댓글 분석 텍스트마이닝 (0) | 2026.04.19 |
| [기초통계] 독립변수 종속변수 척도 방법론 (0) | 2026.04.15 |
| 패널고정효과모형과 잠재계층성장분석 (0) | 2026.04.13 |