| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 데이팅앱
- Topicmodeling
- LDA
- 아도르노
- HLM
- 육체의 변증법
- LDA분석
- 공동생산
- 청년비경제활동인구
- 행렬
- 계몽의변증법
- Grouped-BarChart
- 뒤르켐
- 파슨스
- 동시출현의미망
- 사회학
- 베이지안통계학
- 통계학분포
- 세종시
- 데이터분석
- 고급통계
- 광기의역사
- 청년연구
- AHP분석
- 논술대회
- 독립표본t검정
- 고급통계학
- 취준연구
- 베버
- 취업준비생연구
- Today
- Total
Look, See, Why
고급통계란 무엇인가? 그리고 고급통계의 종류 본문
기초통계는 기술 통계와 추론 통계로 나누어진다. 기초 통계학의 추정에서는 평균 비교와 선형 관계가 등장하는데, 현실 세계는 이렇게 철저한 이론적 조건(엄격한 가정)이 성립되지 않는다. 여기서 엄격한 가정이란 독립성, 등분산성, 정규성, 변수의 직접적 관찰 가능성 등을 말한다. 원래 현실은 이론처럼 깔끔하고 합리적이지 않고 지저분하고 복잡한 법.
고급통계는 이렇게 이론적인 조건들(가정)이 성립되지 않았을 때 어떻게 현실 데이터를 처리할까에 대한 고민에서 발전했다. 대표적인 것들은 다음과 같다.

1) 위계적 선형 모형 (HLM)
다층 모형이라고도 불린다. 일반적인 선형 회귀는 모든 관측치가 독립적이라고 가정하지만, 현실의 데이터는 집단에 속해 있고, 여러 층위로 중첩되어 있다. HLM은 개인 수준의 분산과 집단 수준의 분산을 분리하여 상위 집단이 하위의 개인에게 미치는 영향을 추정한다.

2) 구조방정식 모형 (SEM)
요인 분석과 다중 회귀 분석을 결합한 기법이다. 다중 선형 회귀분석에서는 변수들이 완벽하게 관찰 가능하게 측정되었다고 가정한다. 또한 단일한 종속변수에 대한 분석만을 수행한다. 현실에서는 관찰하기 어려운 잠재변수들이 있으며, 여러 종속변수가 서로 얽혀있다. 직접 측정하기 어려운 잠재 변수를 여러 개의 관측 변수를 통해 측정하고, 이러한 잠재 변수들 간의 복잡한 인과관계를 동시에 검증한다. 측정 오차를 모델에 직접 포함시킬 수 있어 결과의 신뢰도가 높은 편이다.


3) 시계열 분석과 생존 분석
일반 선형 회귀분석에서는 관측치 간의 독립성을 가정한다. 하지만 현실의 많은 데이터는 시간의 흐름이 큰 영향을 미친다. 주식차트를 생각해보자. 어제의 주가가 오늘의 주가에 엄청난 영향을 끼치지 않는가?
시계열 분석은 일정한 시간 간격으로 측정된 데이터의 추세, 계절성, 주기를 파악하여 미래의 값을 예측한다. ARIMA 모형이 대표적이다.
생존 분석은 특정 사건이 발생할 때까지 걸리는 시간을 분석한다. 연구 기간 내에 사건이 발생하지 않은 중도 절단(Censored) 데이터를 처리할 수 있는 것이 특징이다.


4) 다변량 통계 분석(PCA, 클러스터링)
현대 세계의 데이터는 빅데이터다. 나 한명의 관측치에 나이, 성별, 소득, 지출 습관, 교육 수준 등이 한꺼번에 측정이 된다. 변수가 이렇게 폭발적으로 늘어나면 통계 모형은 복잡해지고, 데이터 간의 거리는 멀어지며, 모델의 해석력은 급감하는 차원의 저주에 걸리게 된다. 다변량 통계 분석은 한두개의 변수를 다루던 기존 통계와 달리 셋 이상의 변수들간의 상호관계를 동시다발적으로 분석한다.
PCA는 서로 상관성이 높은 여러 변수들을 선형 결합하여 정보의 손실을 최소화하면서 독립적인 소수의 주성분으로 차원을 축소한다.
클러스터링(군집분석)은 데이터 포인트 간의 거리를 측정하여 사전에 정의되지 않은 유사한 특성을 가진 군집으로 묶어내는 비지도 학습 기법이다.


5) 라쏘와 릿지 회귀분석
다중 선형 회귀분석에서 많은 변수를 투입하면 모델이 지엽적인 노이즈까지 과도하게 학습해버리는 과적합 현상이 발생한다. 학습 데이터에는 완벽히 적중하지만 실전의 새로운 테스트 데이터에 대해서는 일반화 능력이 형편없다. 다중공선성 문제가 발생하면 해석 자체가 불가능해진다. 규제화 기법은 기존의 선형 회귀 모형의 오차 함수에 페널티항을 추가하여 회귀 계수의 크기를 제한한다. 이로써 모델의 과적합을 방지하고 다중공선성 문제를 해결할 수 있다.
라쏘는 L1 패널티를 부과한다. 덜 중요한 변수의 회귀계수를 0으로 만들어버린다. 릿지는 L2 패널티를 부과한다, 모든 변수의 계수 크기를 0에 가깝게 수축시키는 방식이다.

6) 베이지안 통계학 (Bayesian Statistics)
빈도주의 통계학과 대비되는 또 다른 철학이자 방법론이다. 우리가 많이 배우고 익숙한 통계학은 빈도주의 통계학이다(P-VALUE). 베이지안 통계학은 확률을 주관적인 믿음의 정도(불확실성의 척도)로 해석하며 모수를 고정된 값이 아닌 확률 분포로 간주한다. 베이즈 정리를 따른다. 사전 지식에 새로운 데이터를 결합하여 사후 확률을 지속적으로 업데이트한다. 데이터가 적거나 결측치가 많을 때 대처하기가 좋다. 직관적인 해석이 가능하다.
'사회학 공부 > 통계 및 데이터분석' 카테고리의 다른 글
| [기초통계] t 검정 (차이검정) (0) | 2026.04.01 |
|---|---|
| [기초통계] 표본분포와 추정 (0) | 2026.04.01 |
| [기초통계] 연속확률분포 / 표본분포 (0) | 2026.03.25 |
| [기초통계] 중심극한정리 CLT가 통계학에서 중요한 이유는? (0) | 2026.03.23 |
| 제 1종 오류와 제 2종 오류 (0) | 2026.03.23 |