Look, See, Why

다층모형과 공간분석

S YE — Wed, 20 May 2026 23:20:03 +0900

1) 다층모형

다층모형은 위계적인 구조를 가진 데이터를 분석하는 통계 방법이다.

중첩된 데이터 구조를 가지고 있으며, 같은 집단 내 관측치들이 서로 독립적이지 않다는 점을 고려한다.

집단 간 차이와 집단 내 차이를 동시에 분석한다.

*주요 특징

1. 급내상관계수 : 같은 집단 내 개체들이 얼마나 비슷한가?를 나타내는 지표

2. 무선효과 : 집단마다 절편이나 기울기가 다르다고 가정

3. 고정효과 : 모든 집단에 동일하게 적용되는 평균적인 효과

2) 공간분석

공간분석은 지리적 위치와 공간적 관계를 고려한 분석 방법.

주요개념

-공간적 자기상관 : 가까운 지역끼리 비슷한 값을 가지는 경향

-공간 회귀모형 : 공간시차모형, 공간오차모형, 공간더빈모형

-지리가중회귀 : 위치에 따라 회귀계수가 달라진다.

-공간 가중행렬

ㄴ공간적 관계를 정의하는 핵심 요소 : 인접성 기반, 거리 기반, K-최근린

[기초통계] 회귀분석

S YE — Wed, 20 May 2026 22:27:30 +0900

[단순선형회귀모형]

종속변수를 Y라 하고, 독립변수를 X라 할 때 두 변수간의 선형 모델은

cf. 비선형을 선형처럼 만들어서 쓰는 경우가 있다.

[보통최소제곱추정(OLS)]

종속변수와 독립변수 간의 관계를 가장 잘 나타내는 best fit인 직선을 추정한다.

=추정값과 관찰값의 차이, 즉 오차가 최소가 됨을 의미한다

추정값 : 보통의 사람들은 이럴 것이다 하는 값 (집단적, 평균적인 값)

이거의 확장판이 WLS, ML, GLS, GEE 등등이 있다..(지금도 개발 중)

두 변수 간의 관계를 가장 잘 설명한다는 것은 추정된 직선상에 있는 각 점들과 각 종속변수와 독립변수들의 관찰값들과의 수직 거리인 오차들이 최소가 됨

[오차와 잔차의 차이]

ㄴ오차(error) : 참값(실제 값)과 관찰값 간의 차이

오차는 이론적이고 미지의 값

ㄴ잔차(residual) : 추정값(예측값)과 관찰값 간의 차이

데이터를 통해서 값을 얻을 수 있다. 잔차는 확률오차와 닮았을 거라고 생각을 한다.

그런데 이 오차는 random error을 가정함. -> 잔차가 random 이 아니라면 오차도 문제가 있다고 추측.

[모형 형태에 대한 가정]

-선형성 : X와 Y를 관계시키는 모형이 회귀계수에 대하여 선형이다

ㄴOLS는 비선형을 추정할 수 없다.

[오차에 대한 가정]

-오차의 평균은 0

ㄴ오차항과 X(독립변수)가 서로 상관관계가 없다는 것을 의미(exogeneity(외생성))

(이것이 성립되는지 안하는지가 매우 중요한데,

패널, 공간분석, 다층 모형 등등 다 오차의 외생성 가정이 위배되기 때문에 나온 것이다

ex. owner risk가 고정되어 있다고 가정 --> fixed effects), 도구변수(IV)모형 등

-등분산성(homogeneity)

ㄴ오차는 동일한(but 알려지지 않은) 분산을 가진다

ㄴ그러나 이 가정은 거의 성립되지 않는다.

-독립성(conditionally uncorrelated observations)

ㄴ오차의 평균이 0이라는 가정만으로 일치추정량이 될 수 없으며,

오차의 분포가 identically and independently distributed (등분산+독립)해야 OLS의 VCE(회귀계수의 표준오차를 추정하는 공식)가 일관된 추정을 하게 됨

-쉽게 말해 서로 영향을 주지 않는다는 것이다.

ㄴ그러나 이 가정도 깨지기가 쉽다.

ex. 대통령 지지도를 조사한다고 했을 때, 오차에 '지역'이 있다

--> 다층모형과 공간분석

-정규성

[예측(독립)변수에 대한 가정]

-독립변수는 확률변수가 아니다

ㄴ독립변수 X값은 연구자가 고정시킨 상수로 간주한다. (X는 반복 표집을 해도 항상 같은 값을 가지며, 불확실성은 오차항에서만 발생한다)

-값은 오차없이 측정됨

ㄴX는 측정오차없이 완벽하게 관측된다고 가정

-독립변수는 선형 독립적이다

ㄴ어떤 독립변수도 다른 독립변수들의 완전한 선형 결합으로 표현되지 않는다는 가정.

[가설검정과 신뢰구간]

회귀계수가 통계적으로 유의한지 검정할 때 t검정을 사용한다.

귀무가설 : X와 Y 사이에는 선형관계가 없다

[결정계수]

-결정계수(R스퀘어)=SSR/SST (모형이 Y의 변동을 얼마나 설명하는지를 0~1 사이 비율로 보여준다)

ㄴ회귀선이 Y를 얼마만큼 설명했는가?를 보여준다

-독립변수를 추가하면 R스퀘어가 올라가는 문제가 있기 때문에(의미없는 변수를 넣어도 이런 문제가 생긴다) --> Adjusted R2(수정된 결정계수)를 사용

ㄴ표본의 크기와 parameter(독립변수의 수) 를 보정함

[다중공선성]

-독립변수들끼리 강하게 상관되어 있을 때 발생

OLS 추정치 자체는 불편추정량이지만 표준오차가 부풀면 실제로 유의미한 변수가 유의하지 않게 나오기도 한다

진단은 VIF(분산확대인자) 를 사용.

[특이값과 영향점]

영향점은 특정 관측개체를 제거했을 때 회귀계수, 적합값, t값 등 모형에 큰 변화가 생기는 점을 의미한다.

특이점 : 종속변수(Y) 방향의 특이값은 적합값으로부터 멀리 떨어져 큰 표준화잔차를 가지는 관측개체로, 표준화잔차가 평균(0)으로부터 2 또는 3 표준편차 이상 떨어진 점을 말함

독립변수(X) 방향의 특이값은 지레값(leverage value)을 통해 판별하는데, 지레값의 평균 (p+1)/n 보다 2배 이상 큰 값을 가지면 특이점으로 봄

[이분산성]

등분산성 가정은 오차 ε₁, ε₂, ..., εₙ이 모두 동일한 분산 σ²을 가진다는 것인데, 이것이 위배된 상태가 이분산성.

발생원인 : 독립변수의 값이 커질수록 오차의 분산도 커지는 경우(가장 흔함), 독립변수의 극단값에서 오차가 증가하는 경우, 응답자의 측정오차 차이, 군집 표본추출로 인한 집단 내 상관관계 등...

이분산성의 경우 효율추정치가 아니게 되어 잘못된 추론이 될 수 있다.

->해결 : robust standard errors, Bootstrap, Jackknife 등등..

[비표준화회귀계수]

-비표준화회귀계수는 공분산의 문제와 마찬가지로, 독립변수의 측정척도에 따라 좌우됨.

-특히 독립변수가 둘 이상은 다중회귀분석에서 종속변수에 대한 독립변수의 상대적인 영향력의 크기를 비표준화회귀계수를 통해 판단할 수 없음

-->표준화 : Z점수(평균 0, 표준편차 1)로 변환한 뒤 회귀분석을 실시한 계수임

표준화한 후 비교를 한다. -> 상대적인 영향력(중요도)의 크기를 비교할 수 있음

ex. SEI (직업의 사회경제적 지위 지수) 직업 회귀식

*조절효과 : 독립변수가 종속변수에 미치는 영향의 크기나 방향이 제3의 변수의 수준에 따라 달라진다

ex. "운동량(X)이 체중 감소(Y)에 미치는 효과가 식단 조절 여부(W)에 따라 다르다"

[다중공선성]

[원인]

-더미변수의 부적합한 사용(1개의 범주에 대한 변수를 생략하지 않았을 경우) cf.더미변수는 상수와 겹치기 때문에 하나를 버린다.

-다른 변수를 생성하기 위해 사용된 변수가 회귀식에 또 포함된 경우 (가구소득, 남편소득, 아내소득이 회귀식에 다 들어감)

-거의 같은 속성을 측정한 변수가 포함된 경우

-두 변수끼리 상관관계가 매우 높은 변수가 포함된 경우 (사회경제적 지위와 직업위세)

[문제] 다중공선성은 표준오차(S.E)를 증가시켜 t값을 작게 만들기 때문에,

본래 유의미한 변수조차도 유의미하지 않다는 결과가 나온다.

-->VIF (분산확대인자)

ㄴR스퀘어 값이 1에 가까워질수록(클 수록) VIF는 매우 커짐.

ㄴ10을 초과하면 심각한 다중공선성의 문제가 있다고 판단한다.

[해결방법]

-VIF가 10이상이면 회귀식에서 제외하기. 결합가설검정을 통해 일정한 제약을 부여하여 사용하기

-요인점수를 산출하여 활용하는 방법

불편성, 일치성은 연구자가 조절하기 어렵지만 효율성은 그나마 개선이 가능함.

[이분산성 문제의 해결방법]

-이분산성은 오차항의 분산이 관측치마다 다른 상태.

X값이 커질수록 잔차의 퍼짐도 커지거나 작아짐.

-robust standard errors - 샌드위치 추정을 이용한 것으로, 가중치를 이용한다.

-resampling 방법 - Bootstrap 이용. 복원추출.

[기초통계] 카이제곱 분포와 상관분석

S YE — Wed, 6 May 2026 20:17:49 +0900

GLM(일반화 선형모형) 그룹들 - 선형회귀, 로지스틱 회귀, 포아송 회귀 ...

-카이제곱 검정은 범주형 데이터간의 관계를 분석하거나, 관측빈도가 기대빈도와 얼마나 다른지를 검정한다.

-카이제곱분포는 단일 모집단으로부터 추출한 표본분산과 모집단분산의 비를 나타내는 확률변수에 대한 검정에서 활용되는 분포.

ㄴ연속확률분포로서 확률변수는 항상 양의 값만을 가짐, 오른쪽 꼬리를 가진 비대칭 분포

ㄴ자유도에 의해 모양이 결정되며 자유도가 커질수록 정규분포에 근접

-카이제곱 검정을 하려면 빈도교차표를 먼저 만들어야 한다. 교차분석을 하고 통계량을 만들 때 카이제곱 통계랑을 가져다 쓰는 것임.

-빈도교차표는 카이제곱 검정의 시작. 관찰값과 기대값의 차이를 보고, 이를 통해서 카이제곱 통계량을 산출한다.

ㄴ카이제곱 통계량 = (관측값-기대값)제곱 / 기대값

ㄴ값이 클수록 관측값-기대값의 차이가 크다는 것.

-카이제곱 검정은 관계의 유무는 알려주지만 관계의 방향이나 강도는 알려주지 않는다.

(ex. 성별에 따라 흡연 비율이 다른 경우 '관계가 있다'라고만 한다.)

[카이제곱 검정과 F검정]

-카이제곱 검정과 F검정 모두 분산의 개념을 기반으로 하여, 귀무가설이 참일 때 기대되는 분포와 실제 관측값의 차이를 측정함

-F분포는 두 카이제곱 분포의 비율로 정의됨

F = (χ² / df₁) / (χ² / df₂)

ㄴF분포는 카이제곱 분포로부터 파생되었다고 보면 됨 (t, F, 카이제곱은 모두 같은 수학적 뿌리를 가짐. t제곱=F)

[상관분석]

-벡터 : 크기와 방향을 표현

-두 연속형 변수 사이에 선형적 관계가 있는지, 있다면 얼마나 강하고 어떤 방향인지(+인지 -인지) 분석.

-공분산 : 두 변수가 함께 변하는 정도를 측정. but 단위에 종속적 (ex. cm와 m의 분산(차이의 제곱) 차이가 커짐)

---> 피어슨 상관계수 : 각 편차들을 표준편차로 나눔. 절대적으로 비교하기 위해서. -1부터 1까지

(피어슨 말고도 스피어만, 켄달 상관계수도 있음)

-회귀분석과 달리 무엇이 원인이고 결과인지는 지정하지 않는다.

어떤 것들은 선형적인 관계만 없을 뿐이지 관계가 있는 것들도 있다.

[기초통계] 자유도, 분산분석(평균차이 검정), F검정(분산비 검정)

S YE — Wed, 29 Apr 2026 20:27:36 +0900

-자유도로 나누는 이유? 불편추정량을 얻기 위함이다.

-수학적 설명으로 도출할 수 있음, 표본평균을 이용할 경우 항상 갭(bias)가 있게 된다.

n-1로 나누어야 불편추정량(bias가 없이 추정하기 위해서임)이 된다.

[분산분석]

평균차이를 한 번에 적용할 수 있는 방법을 찾다가 평균차이검정(t검정)에 분산을 사용한 것임.

엄밀히 말하면 세 집단 이상의 평균차이검정을 효율적으로(한 번에) 하기 위해서 분산분석을 사용하는 것임.

평균이 같은지 틀린지를 알고 싶은것임. 쓸데없이 독립표본t검정을 여러 번 하면 힘듦.

[분산분석 원리]

전체 데이터가 흩어진 정도를 두 부분으로 나눈다.

Y의 변동=설명된 변동+설명되지 않은 변동

(yᵢⱼ − ȳ) = (ȳⱼ − ȳ) + (yᵢⱼ − ȳⱼ) 이걸 제곱해서 합치면

SST(총 제곱합)=SSB(집단 간 제곱합between)+SSE(집단 내 제곱합within)

이 제곱합을 자유도로 나누어서 제곱평균(Mean Square)을 구한다

c=그룹수, n=전체 관측 수

F=MSB(그룹 간 분산 between)/MSE(그룹 내 분산 within)

F값이 크다는 것은 그룹간 차이가 그룹 내 차이(우연)보다 크다는 것임. -> 귀무가설을 기각한다.

F값이 0에 가깝다는 것은 그룹 간의 차이가 오차 수준이라는 것 = 그냥 우연 -> 귀무가설 기각 실패

F검정=분산비 검정

[등분산 가정]

일반적인 ANOVA는 '모든 그룹의 분산이 같다'고 가정하는데, 현실에서는 이 가정이 깨지는 경우가 많다.

등분산 가정이 깨질 때는 그냥 ANOVA를 쓰면 결과가 왜곡될 수 있으므로 Welch F-test를 사용한다.

분산이 크고 표본이 작은 그룹은 (신뢰도가 낮으니) 가중치(Wj)를 낮게 줌

분산이 작고 표본의 크기가 큰 그룹은 (신뢰도가 높으니) 가중치(Wj)를 높게 줌

회귀분석 = 전체 평균을 벗어나게 만드는 것(차이를 만드는 것)을 확인하는 것임 (anova랑 같은 원리임)

회귀분석의 SST(Y전체가 흩어진 정도)=SSR(X로 설명된 변동)+SSE(X로 설명 못한 변동)

R스퀘어(결정계수) 역시 설명된 변동/전체 변동이다. '그룹 간 차이가 전체 변동의 몇 %를 설명하는가?'

One-Way ANOVA(일원분산분석) = 독립변수 1개

MANOVA = 여기서 M은 multiple. (종속변수가 2개 이상)

[사후검정]

누가 다른 건지를 파악하는 것.

기본적으로 여기에서도 표본크기가 같을 때 사용

ex.Turkey-HSD, Turkey-Kramer(표본크기가 다를 때 쓸 수 있다)

추적 60분 은둔중년 다큐멘터리 유튜브 댓글 분석 텍스트마이닝

S YE — Sun, 19 Apr 2026 00:10:38 +0900

TF-IDF

N-gram

LDA Topic Modeling

감성분석

[기초통계] 독립변수 종속변수 척도 방법론

S YE — Wed, 15 Apr 2026 18:55:54 +0900

독립 / 종속	범주형	연속형
범주형	카이제곱검정	t검정, F검정
연속형	로지스틱 회귀	상관분석

패널고정효과모형과 잠재계층성장분석

S YE — Mon, 13 Apr 2026 17:24:34 +0900

1. 패널고정효과모형 (Fixed Effecgts Model)

패널고정효과모형은 관측되지 않은 개별 특성을 통제하여 변수 간의 인과관계를 보다 정확하게 추론하기 위해 사용되는 핵심적인 방법론이다.

패널 데이터는 여러 대상을 여러 시점에 걸쳐 관측한 데이터로, 각 대상은 고유한 특성을 가진다. 어떤 특성이 있냐면...

관측 가능: 교육 수준, 성별, 지역 (보통 데이터에 포함됨)
관측 불가능: 개인의 선천적 능력, 기업의 조직 문화, 국가의 역사적 배경

고정효과모형의 핵심 논리는 시간이 흘러도 변하지 않는 각 대상의 고유한 특성(개별 고정효과)을 모델에서 상쇄시켜 버리는 것이다. 이렇게 함으로써 X와 Y 사이의 순수한 변화 (within variation)만을 포착할 수 있다.

개별 고유한 특성은 차분이나 평균 제거를 통해 제거한다. 각 변수에서 해당 개체의 시계열 평균값을 뺀다.

<장점>

-내생성 통제 : 독립변수와 상관관계가 있는 관측되지 않은 시간 불변 특성을 효과적으로 제거한다.

cf.내생성이란? 관측 불가능 변수가 독립변수와 종속변수 모두에 영향을 주어 결과를 왜곡하는 것이다.

-확률효과모형(Random Effects)보다 가정이 덜 까다로워 사회과학 연구에서 선호된다.

<단점>

-시간 불변 변수 추정 불가 : 성별이나 인종처럼 시간에 따라 변하지 않는 변수의 효과는 개별 고정효과와 함께 사라져 추정할 수 없다.

-자유도 손실 : 개체 수가 많을 경우 추정해야 할 파라미터가 늘어나서 효율성이 떨어질 수 있다.

2. 잠재계층성장분석(LGCA)

잠재계층성장분석은 인구집단이 동질적이라는 가정을 배제하고 그 안에 서로 다른 발달 경로를 걷는 여러 하위 집단이 존재함을 전제로 한다. 반면 전통적인 잠재모형(LGM)은 모든 개인이 단일한 평균 궤적을 공유한다고 전제한다.

<특징>

-계층 내 동질성 가정 : 동일한 계층에 속한 모든 개인은 동일한 성장 파라미터를 공유하며, 계층 내 분산은 0이다.

이렇게 하면 모형의 파라미터수를 줄여서 수렴을 용이하게 하지만 실제 데이터를 충분히 반영하지 못한다.

이를 보완하기 위해 계층 내의 분산을 허용하는 성장혼합모형(GMM)도 있다. 그래서 LCGA는 GMM보다 더 엄격한 형태임.

[기초통계] 가설검정/독립표본t검정

S YE — Thu, 9 Apr 2026 13:10:15 +0900

[가설검정]
-가설검정 : 모수에 대한 새로운 가설이 옳다고 판단할 수 있는지를 표본통계량을 이용해서 평가하고 판단하는 과정
-유의수준 : 귀무가설이 옳다는 전제하에서 어느정도 극단적인 표본통계량값이 나오면 귀무가설이 잘못되었다고 판단하여 귀무가설을 기각할 최대한의 확률
-임계치 : 검정의 종류(양측, 단측)와 유의수준을 고려해서 산출한 값으로 가설의 채택 여부를 결정짓는 경계값
-검정통계량 : 표본으로부터 추출한 통계량이나 검정에 사용할 분포에 따라 그에 맞는 값으로 치환한 통계량
-p값 : 표본으로부터 얻은 통계량 혹은 이를 치환한 검정통계량의 절대값보다 더 큰 절대값을 또다른 표본으로부터 얻을 수 있는 확률

[독립표본 t검정]
양측검정과 단측검정이 있다.

[분산이 같은 경우와 다른 경우]

토픽 모델링이란? 토픽 모델링의 원리/가정/차원/알고리즘

S YE — Wed, 8 Apr 2026 15:20:11 +0900

• 대규모 텍스트 데이터에서 숨겨진 '주제(Topic)'나 '이슈'를 추출하는 분석 방법

• 문서마다 반복적으로 등장하는 단어들의 동시 사용 패턴(빈도와 함께 등장)을 계산하여 데이터 전체에 포함된 N개의 주제를 찾아내는 것이 목표

• 머신러닝의 비지도 학습(unsupervised learning) 방식 중 하나로, 주제를 사전 정의하지 않고 찾아내는 방식임.

->지도학습은 정답이 있는 데이터를 학습 입력 데이터와 함께 각 입력에 대응하는 정답을 미리 알려주고 모델을 학습시킴.

(ex.게임에서 욕설을 입력했을 때 자동으로 처리해주는 것. / 감정 분석.

->비지도학습은 라벨이 없는 데이터만으로 동작 정답값 없이, 숨겨진 패턴이나 데이터의 그룹을 스스로 찾아내는 방식.

방향성이 없음. 빅데이터를 탐색하고 분석하기에 적합하다.

[원리]

• 여러 문서 내 특정 단어들의 등장 확률을 바탕으로 자주 함께 등장하는 단어 집합을 하나의 주제인 '토픽'으로 간주한다

• 각 문서는 N개의 토픽이 특정 확률로 혼합되어 있다는 가정에서 출발함,

• 문서-토픽 분포 : 문서 내에 어떤 토픽이 얼마나 포함되어 있는가?

• 토픽-단어 분포 : 토픽 내에 어떤 단어가 얼마나 대표적인가?

[토픽 모델링 가정]

• 각 토픽은 단어들의 분포이다.

• 각 문서는 여러 토픽들의 분포이다.

• 각 단어는 각 토픽으로부터 가져온다.

[차원축소]

• 차원의 저주 : 고차원 벡터(문서-단어 행렬)은 너무 많은 연산량과 저장 공간을 요구함.

• 과적합문제 : 학습데이터에 포함된 노이즈까지 너무 자세히 학습하게 되어 새로운 데이터에 대해 잘 일반화하지 못함.

(-->토픽의 개수가 너무 많아진다.)

• 차원 축소 : 유의미하지 않은 단어들을 제거해서 효과적으로 분석해볼 수 있음.

불용어를 제거하고, 유의어를 지정(처리)해본다. (내 주제에 맞춰서 설정을 하면 됨)

전체 문서의 몇 % 이상 등장하는 단어거나 너무 적게 등장하는 단어는 제거하는 식으로.

• 3개의 파라미터

1) 토픽수

2) α(문서별 토픽 분포 파라미터) : α가 클수록 한 문서는 여러 주제를 포함하며 작을수록 소수 주제에 집중

3) β(토픽별 단어 분포 파라미터) : β가 크면 한 토픽이 다양한 단어로 구성되고,작으면 특정 몇 단어로만 구성

• 재현성 : LDA는 확률 기반 토픽 모델이기 때문에, 학습 과정에서 무작위성이 개입한다.

재현성을 위해서 3개의 파라미터, 랜덤 시드, 학습 횟수는 고정(명시)해야 한다.(투고할 때) <-처음에 코드를 짤 때 아예 요청을 하자.

[사용 라이브러리]

-gensim, scikit-learn, tomotopy

[토픽 모델링 알고리즘]

• LDA : 잠재 디리클레 할당 (대표)

ㄴBlei가 처음 만들었다. 문서는 여러 가지 잠재 주제들의 확률적인 조합으로 생성된다는 발상을 베이지안 확률 모델로 구현하였으며, 기존 텍스트 분석 모델들의 고질적인 과적합 문제를 해결하고 뛰어난 일반화 성능을 달성했다는 데 의의가 있음.

• DTM (Dynamic Topic Modeling)

• DMR (Dirichlet Multinomial Regression)

• STM (Structural Topic Modeling) (파이썬에는 없고 R에 있다)

[토픽수(K) 계산]

-Perplexity(혼란도) : 모델이 문서의 단어를 예측할 때, 얼마나 많은 선택지에 놓이는지 보여주는 지표

낮을수록 유리

-Coherence(응집도) : 각 토픽 안에 속한 단어들이 의미적으로 얼마나 서로 잘 어울리는지를 보여 주는 지표

높을수록 유리

하지만 너무 숫자에 연연할 필요 없다.

하지만 합의가 없기 때문에.. 연구자의 역량에 따라서. 토픽을 얼마나 잘 설명하느냐에 따라 정하면 됨.

[기초통계] t 검정 (차이검정)

S YE — Wed, 1 Apr 2026 20:48:17 +0900

<Z검정>

-모집단의 분산(표준편차)를 이미 알고 있어야 한다는 것이 가장 문제임.
하지만 중심극한정리에 의해 n이 커질수록 t분포는 z분포에 완벽하게 수렴하기 때문에 표본이 클 때는 t검정 = z검정
z검정은 다소 까다롭기 때문에 표본 크기 상관없이 안전하게 쓸 수 있는 t검정을 많이 씀..
물론 모비율 검정을 할 때는 z검정을 한다.

<t분포>
-양조장에서 일하던 윌리엄 고셋은 표본 크기에 따라 분포의 형태가 변해야 함을 깨닫고 'Student'라는 필명으로 t분포 발표
(소표본일 때 t분포를 사용한다)

-t분포는 좀 낮고 꼬리가 두껍다. 표본이 적어서 분산이 크기 때문 + 극단값들이 나타날 확률이 더 높음
-샘플 사이즈가 크다면 z분포와 같아진다. (데이터는 항상 천 개 이상을 쓰도록 하자.)

<t 검정>
-t검정은 불확실성을 반영하여 귀무가설 기각에 더 엄격한 기준을 적용한다.
-t-검정은 "차이검정"이다.
-F-검정은 "비율검정" (->분산 비율을 검정. 세 집단의 평균 차이를 검정하기 위한 효율적인 방법 중의 하나이다)
-t값=두 집단의 평균의 차이/표준오차
-오류가 작은 것을 선택하는 것이 가설검정이다. 오류는 작을 수록 좋다
-검정통계량은 수집한 표본 데이터로부터 직접 계산해낸 값 (t값, z값, F값 등등..)
기준점으로부터 표본의 결과가 얼마나 멀리 떨어져 있는지를 표준오차 단위로 측정한다.
검정통계량의 절댓값이 클수록 내 데이터가 보여주는 '차이'가 크다는 것을 의미한다.
-임계값은 미리 설정한 유의수준(보통 알파=0.05)에 따라 이론적인 확률분포표에서 찾아낸 고정된 기준선이다.
이 선을 넘어가면 통계적으로 의미가 있는 진짜 차이임 (커트라인 같은 것)
내 데이터의 검정통계량이 기각역에 떨어지면 영가설(귀무가설)을 기각하게 된다.

<t검정을 위한 기본 가정>
-무작위 표집 : 데이터는 모집단으로부터 무작위로 추출되어야 하며 표본 선택 과정에서 편향이 없다
-독립성 : 각 관측치는 서로 통계적으로 독립적이다
-정규성 : 데이터가 추출된 모집단이나 표본 평균들이 정규분포를 따른다
-등분산성 : 비교하고자 하는 두 독립된 집단의 모집단의 분산이 서로 같아야 한다 (독립표본t검정에서)