<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>Look, See, Why</title>
    <link>https://dolphinsnewhome.tistory.com/</link>
    <description></description>
    <language>ko</language>
    <pubDate>Tue, 2 Jun 2026 14:45:31 +0900</pubDate>
    <generator>TISTORY</generator>
    <ttl>100</ttl>
    <managingEditor>S YE</managingEditor>
    <image>
      <title>Look, See, Why</title>
      <url>https://tistory1.daumcdn.net/tistory/4892100/attach/1e70114a36f6474ea6d788bdab500e33</url>
      <link>https://dolphinsnewhome.tistory.com</link>
    </image>
    <item>
      <title>다층모형과 공간분석</title>
      <link>https://dolphinsnewhome.tistory.com/84</link>
      <description>&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;641&quot; data-origin-height=&quot;231&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dvc3Ii/dJMcacDibQ4/XkAlHsknAotiauCjkMnuFk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dvc3Ii/dJMcacDibQ4/XkAlHsknAotiauCjkMnuFk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dvc3Ii/dJMcacDibQ4/XkAlHsknAotiauCjkMnuFk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fdvc3Ii%2FdJMcacDibQ4%2FXkAlHsknAotiauCjkMnuFk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;641&quot; height=&quot;231&quot; data-origin-width=&quot;641&quot; data-origin-height=&quot;231&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1) 다층모형&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다층모형은 위계적인 구조를 가진 데이터를 분석하는 통계 방법이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;중첩된 데이터 구조를 가지고 있으며, 같은 집단 내 관측치들이 서로 독립적이지 않다는 점을 고려한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;집단 간 차이와 집단 내 차이를 동시에 분석한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;*주요 특징&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1. 급내상관계수 : 같은 집단 내 개체들이 얼마나 비슷한가?를 나타내는 지표&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2. 무선효과 : 집단마다 절편이나 기울기가 다르다고 가정&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;3. 고정효과 : 모든 집단에 동일하게 적용되는 평균적인 효과&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;748&quot; data-origin-height=&quot;618&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/32ngj/dJMcagTcPBR/9s3Dx65Z2TImZkYcKpFo90/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/32ngj/dJMcagTcPBR/9s3Dx65Z2TImZkYcKpFo90/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/32ngj/dJMcagTcPBR/9s3Dx65Z2TImZkYcKpFo90/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F32ngj%2FdJMcagTcPBR%2F9s3Dx65Z2TImZkYcKpFo90%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;748&quot; height=&quot;618&quot; data-origin-width=&quot;748&quot; data-origin-height=&quot;618&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2) 공간분석&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;공간분석은 지리적 위치와 공간적 관계를 고려한 분석 방법.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;주요개념&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-공간적 자기상관 : 가까운 지역끼리 비슷한 값을 가지는 경향&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-공간 회귀모형 : 공간시차모형, 공간오차모형, 공간더빈모형&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-지리가중회귀 : 위치에 따라 회귀계수가 달라진다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-공간 가중행렬&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ공간적 관계를 정의하는 핵심 요소 : 인접성 기반, 거리 기반, K-최근린&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <category>공간분석</category>
      <category>다층모형</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/84</guid>
      <comments>https://dolphinsnewhome.tistory.com/84#entry84comment</comments>
      <pubDate>Wed, 20 May 2026 23:20:03 +0900</pubDate>
    </item>
    <item>
      <title>[기초통계] 회귀분석</title>
      <link>https://dolphinsnewhome.tistory.com/83</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;[단순선형회귀모형]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;종속변수를 Y라 하고, 독립변수를 X라 할 때 두 변수간의 선형 모델은&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;208&quot; data-origin-height=&quot;45&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bAYkut/dJMcaaSPS4W/YtptsTysDgvfVQekZOt3xk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bAYkut/dJMcaaSPS4W/YtptsTysDgvfVQekZOt3xk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bAYkut/dJMcaaSPS4W/YtptsTysDgvfVQekZOt3xk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbAYkut%2FdJMcaaSPS4W%2FYtptsTysDgvfVQekZOt3xk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;208&quot; height=&quot;45&quot; data-origin-width=&quot;208&quot; data-origin-height=&quot;45&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;cf. 비선형을 선형처럼 만들어서 쓰는 경우가 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[보통최소제곱추정(OLS)]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;종속변수와 독립변수 간의 관계를 가장 잘 나타내는 best fit인 직선을 추정한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;=&lt;b&gt;추정값과 관찰값의 차이, 즉 오차가 최소가 됨&lt;/b&gt;을 의미한다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;추정값 : 보통의 사람들은 이럴 것이다 하는 값 (집단적, 평균적인 값)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이거의 확장판이 WLS, ML, GLS, GEE 등등이 있다..(지금도 개발 중)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;두 변수 간의 관계를 가장 잘 설명한다는 것은 추정된 직선상에 있는 각 점들과 각 종속변수와 독립변수들의 관찰값들과의 수직 거리인 오차들이 최소가 됨&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;745&quot; data-origin-height=&quot;470&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Bx4Hq/dJMcahxEJCE/MiWvXVkfqNx8EpgIxz03o1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Bx4Hq/dJMcahxEJCE/MiWvXVkfqNx8EpgIxz03o1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Bx4Hq/dJMcahxEJCE/MiWvXVkfqNx8EpgIxz03o1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FBx4Hq%2FdJMcahxEJCE%2FMiWvXVkfqNx8EpgIxz03o1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;745&quot; height=&quot;470&quot; data-origin-width=&quot;745&quot; data-origin-height=&quot;470&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[오차와 잔차의 차이]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ&lt;b&gt;오차(error)&lt;/b&gt; : 참값(실제 값)과 관찰값 간의 차이&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;오차는 이론적이고 미지의 값&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ&lt;b&gt;잔차(residual)&lt;/b&gt; : 추정값(예측값)과 관찰값 간의 차이&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;데이터&lt;/b&gt;를 통해서 값을 얻을 수 있다. 잔차는 확률오차와 닮았을 거라고 생각을 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그런데 이 오차는 random error을 가정함. -&amp;gt; 잔차가 random 이 아니라면 오차도 문제가 있다고 추측.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[모형 형태에 대한 가정]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-선형성 : X와 Y를 관계시키는 모형이 회귀계수에 대하여 선형이다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴOLS는 비선형을 추정할 수 없다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffc1c8;&quot;&gt;&lt;b&gt;[오차에 대한 가정]&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;-오차의 평균은 0&amp;nbsp;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ오차항과 X(독립변수)가 서로 상관관계가 없다는 것을 의미(&lt;b&gt;exogeneity(외생성)&lt;/b&gt;)&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;(이것이 성립되는지 안하는지가 매우 중요한데,&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;패널, 공간분석, 다층 모형 등등 다 오차의 외생성 가정이 위배되기 때문에 나온 것이다&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;ex. owner risk가 고정되어 있다고 가정 --&amp;gt; fixed effects), 도구변수(IV)모형 등&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;-등분산성(homogeneity)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ오차는 동일한(but 알려지지 않은) 분산을 가진다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ그러나 이 가정은 거의 성립되지 않는다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;-독립성(conditionally uncorrelated observations)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ오차의 평균이 0이라는 가정만으로 일치추정량이 될 수 없으며,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;오차의 분포가 identically and independently distributed (등분산+독립)해야 &lt;span style=&quot;letter-spacing: 0px;&quot;&gt;OLS의 VCE(회귀계수의 표준오차를 추정하는 공식)가 일관된 추정을 하게 됨&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;-쉽게 말해 서로 영향을 주지 않는다는 것이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;ㄴ그러나 이 가정도 깨지기가 쉽다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt; ex. 대통령 지지도를 조사한다고 했을 때, 오차에 '지역'이 있다&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;--&amp;gt; 다층모형과 &lt;/span&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;&lt;/span&gt;공간분석&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;-정규성&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[예측(독립)변수에 대한 가정]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-독립변수는 확률변수가 아니다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ독립변수 X값은 연구자가 고정시킨 상수로 간주한다. (X는 반복 표집을 해도 항상 같은 값을 가지며, 불확실성은 오차항에서만 발생한다)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-값은 오차없이 측정됨&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴX는 측정오차없이 완벽하게 관측된다고 가정&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-독립변수는 선형 독립적이다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ어떤 독립변수도 다른 독립변수들의 완전한 선형 결합으로 표현되지 않는다는 가정.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[가설검정과 신뢰구간]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;회귀계수가 통계적으로 유의한지 검정할 때 t검정을 사용한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;귀무가설 : X와 Y 사이에는 선형관계가 없다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[결정계수]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;-결정계수(R스퀘어)&lt;/b&gt;=SSR/SST (모형이 Y의 변동을 얼마나 설명하는지를 0~1 사이 비율로 보여준다)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ회귀선이 Y를 얼마만큼 설명했는가?를 보여준다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-독립변수를 추가하면 R스퀘어가 올라가는 문제가 있기 때문에(의미없는 변수를 넣어도 이런 문제가 생긴다) --&amp;gt; Adjusted R2(수정된 결정계수)를 사용&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ표본의 크기와 parameter(독립변수의 수) 를 보정함&amp;nbsp;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[다중공선성]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-독립변수들끼리 강하게 상관되어 있을 때 발생&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;OLS 추정치 자체는 불편추정량이지만 표준오차가 부풀면 실제로 유의미한 변수가 유의하지 않게 나오기도 한다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;진단은 VIF(분산확대인자) 를 사용.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[특이값과 영향점]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;영향점은 특정 관측개체를 제거했을 때 회귀계수, 적합값, t값 등 모형에 큰 변화가 생기는 점을 의미한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;특이점 : 종속변수(Y) 방향의 특이값은 적합값으로부터 멀리 떨어져 큰 표준화잔차를 가지는 관측개체로, 표준화잔차가 평균(0)으로부터 2 또는 3 표준편차 이상 떨어진 점을 말함&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;독립변수(X) 방향의 특이값은 지레값(leverage value)을 통해 판별하는데, 지레값의 평균 (p+1)/n 보다 2배 이상 큰 값을 가지면 특이점으로 봄&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[이분산성]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;등분산성 가정은 오차 &amp;epsilon;₁, &amp;epsilon;₂, ..., &amp;epsilon;ₙ이 모두 동일한 분산 &amp;sigma;&amp;sup2;을 가진다는 것인데, 이것이 위배된 상태가 이분산성.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;발생원인 : 독립변수의 값이 커질수록 오차의 분산도 커지는 경우(가장 흔함), 독립변수의 극단값에서 오차가 증가하는 경우, 응답자의 측정오차 차이, 군집 표본추출로 인한 집단 내 상관관계 등...&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이분산성의 경우 효율추정치가 아니게 되어 잘못된 추론이 될 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-&amp;gt;해결 : robust standard errors, Bootstrap, Jackknife 등등..&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[비표준화회귀계수]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-비표준화회귀계수는 공분산의 문제와 마찬가지로, 독립변수의 측정척도에 따라 좌우됨.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-특히 독립변수가 둘 이상은 다중회귀분석에서 &lt;span style=&quot;letter-spacing: 0px;&quot;&gt;종속변수에 대한 독립변수의 상대적인 영향력의 크기를 비표준화회귀계수를 통해 판단할 수 없음&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;--&amp;gt;&lt;b&gt;표준화&lt;/b&gt; : Z점수(평균 0, 표준편차 1)로 변환한 뒤 회귀분석을 실시한 계수임&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;표준화한 후 비교를 한다. -&amp;gt; &lt;b&gt;상대적인 영향력(중요도)의 크기를 비교&lt;/b&gt;할 수 있음&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;ex. SEI (직업의 사회경제적 지위 지수) 직업 회귀식&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;*조절효과 : 독립변수가 종속변수에 미치는 영향의 크기나 방향이 제3의 변수의 수준에 따라 달라진다&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;ex. &quot;운동량(X)이&amp;nbsp;체중&amp;nbsp;감소(Y)에&amp;nbsp;미치는&amp;nbsp;효과가&amp;nbsp;식단&amp;nbsp;조절&amp;nbsp;여부(W)에&amp;nbsp;따라&amp;nbsp;다르다&quot;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;[다중공선성]&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;[원인]&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;-더미변수의 부적합한 사용(1개의 범주에 대한 변수를 생략하지 않았을 경우)&amp;nbsp; cf.더미변수는 상수와 겹치기 때문에 하나를 버린다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;-다른 변수를 생성하기 위해 사용된 변수가 회귀식에 또 포함된 경우 (가구소득, 남편소득, 아내소득이 회귀식에 다 들어감)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;-거의 같은 속성을 측정한 변수가 포함된 경우&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;-두 변수끼리 상관관계가 매우 높은 변수가 포함된 경우 (사회경제적 지위와 직업위세)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[문제] 다중공선성은 표준오차(S.E)를 증가시켜 t값을 작게 만들기 때문에,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;본래 유의미한 변수조차도 유의미하지 않다는 결과가 나온다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;--&amp;gt;VIF (분산확대인자)&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;163&quot; data-origin-height=&quot;91&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bBKKJ7/dJMcaak7oyV/FeDSAMl4thyZpQz66cUusk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bBKKJ7/dJMcaak7oyV/FeDSAMl4thyZpQz66cUusk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bBKKJ7/dJMcaak7oyV/FeDSAMl4thyZpQz66cUusk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbBKKJ7%2FdJMcaak7oyV%2FFeDSAMl4thyZpQz66cUusk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;163&quot; height=&quot;91&quot; data-origin-width=&quot;163&quot; data-origin-height=&quot;91&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;ㄴR스퀘어 값이 1에 가까워질수록(클 수록) VIF는 매우 커짐.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;ㄴ10을 초과하면 심각한 다중공선성의 문제가 있다고 판단한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;[해결방법]&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;-VIF가 10이상이면 회귀식에서 &lt;b&gt;제외&lt;/b&gt;하기. 결합가설검정을 통해 일정한 제약을 부여하여 사용하기&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;-요인점수를 산출하여 활용하는 방법&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;불편성, 일치성은 연구자가 조절하기 어렵지만 효율성은 그나마 개선이 가능함.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[이분산성 문제의 해결방법]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-이분산성은 오차항의 분산이 관측치마다 다른 상태.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;X값이 커질수록 잔차의 퍼짐도 커지거나 작아짐.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-robust standard errors - 샌드위치 추정을 이용한 것으로, 가중치를 이용한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-resampling 방법 - Bootstrap 이용. 복원추출.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/83</guid>
      <comments>https://dolphinsnewhome.tistory.com/83#entry83comment</comments>
      <pubDate>Wed, 20 May 2026 22:27:30 +0900</pubDate>
    </item>
    <item>
      <title>[기초통계] 카이제곱 분포와 상관분석</title>
      <link>https://dolphinsnewhome.tistory.com/82</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;GLM(일반화 선형모형) 그룹들 - 선형회귀, 로지스틱 회귀, 포아송 회귀 ...&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-카이제곱 검정은 &lt;b&gt;범주형&lt;/b&gt; 데이터간의 관계를 분석하거나, &lt;b&gt;관측빈도가 기대빈도와 얼마나 다른지&lt;/b&gt;를 검정한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-카이제곱분포는 단일 모집단으로부터 추출한 표본분산과 모집단분산의 비를 나타내는 확률변수에 대한 검정에서 활용되는 분포.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ연속확률분포로서 확률변수는 항상 양의 값만을 가짐, 오른쪽 꼬리를 가진 비대칭 분포&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ자유도에 의해 모양이 결정되며 자유도가 커질수록 정규분포에 근접&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1300&quot; data-origin-height=&quot;975&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/chU2Ak/dJMcaf0Mdc2/8pieQ1RiUBnHMYpKg6Xw31/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/chU2Ak/dJMcaf0Mdc2/8pieQ1RiUBnHMYpKg6Xw31/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/chU2Ak/dJMcaf0Mdc2/8pieQ1RiUBnHMYpKg6Xw31/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FchU2Ak%2FdJMcaf0Mdc2%2F8pieQ1RiUBnHMYpKg6Xw31%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1300&quot; height=&quot;975&quot; data-origin-width=&quot;1300&quot; data-origin-height=&quot;975&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-카이제곱 검정을 하려면 빈도교차표를 먼저 만들어야 한다. 교차분석을 하고 통계량을 만들 때 카이제곱 통계랑을 가져다 쓰는 것임.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-빈도교차표는 카이제곱 검정의 시작. 관찰값과 기대값의 차이를 보고, 이를 통해서 카이제곱 통계량을 산출한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ카이제곱 통계량 = (관측값-기대값)제곱 / 기대값&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴ값이 클수록 관측값-기대값의 차이가 크다는 것.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-카이제곱 검정은 &lt;b&gt;관계의 유무&lt;/b&gt;는 알려주지만 관계의 방향이나 강도는 알려주지 않는다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(ex. 성별에 따라 흡연 비율이 다른 경우 '관계가 있다'라고만 한다.)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[카이제곱 검정과 F검정]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-카이제곱 검정과 F검정 모두 분산의 개념을 기반으로 하여, 귀무가설이 참일 때 기대되는 분포와 실제 관측값의 차이를 측정함&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;-F분포는 두 카이제곱 분포의 비율로 정의됨&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;F = (&amp;chi;&amp;sup2; / df₁) / (&amp;chi;&amp;sup2; / df₂)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ㄴF분포는 카이제곱 분포로부터 파생되었다고 보면 됨 (t, F, 카이제곱은 모두 같은 수학적 뿌리를 가짐. t제곱=F)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[상관분석]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-벡터 : 크기와 방향을 표현&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-두 연속형 변수 사이에 선형적 관계가 있는지, 있다면&lt;b&gt; 얼마나 강하고 어떤 방향인지(+인지 -인지)&lt;/b&gt; 분석.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-공분산 : 두 변수가 함께 변하는 정도를 측정. but &lt;b&gt;단위에 종속적 (ex. cm와 m의 분산(차이의 제곱) 차이가 커짐)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;---&amp;gt; 피어슨 상관계수 : 각 편차들을 표준편차로 나눔. 절대적으로 비교하기 위해서. -1부터 1까지&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(피어슨 말고도 스피어만, 켄달 상관계수도 있음)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-회귀분석과 달리 무엇이 원인이고 결과인지는 지정하지 않는다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;506&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/JFfIZ/dJMcafGwaF9/spbo3v2qamsYpnHX6S3GbK/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/JFfIZ/dJMcafGwaF9/spbo3v2qamsYpnHX6S3GbK/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/JFfIZ/dJMcafGwaF9/spbo3v2qamsYpnHX6S3GbK/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FJFfIZ%2FdJMcafGwaF9%2Fspbo3v2qamsYpnHX6S3GbK%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1000&quot; height=&quot;506&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;506&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;어떤 것들은 선형적인 관계만 없을 뿐이지 관계가 있는 것들도 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <category>공분산</category>
      <category>상관계수</category>
      <category>상관분석</category>
      <category>카이제곱</category>
      <category>카이제곱분포</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/82</guid>
      <comments>https://dolphinsnewhome.tistory.com/82#entry82comment</comments>
      <pubDate>Wed, 6 May 2026 20:17:49 +0900</pubDate>
    </item>
    <item>
      <title>[기초통계] 자유도, 분산분석(평균차이 검정), F검정(분산비 검정)</title>
      <link>https://dolphinsnewhome.tistory.com/81</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;-자유도로 나누는 이유? 불편추정량을 얻기 위함이다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-수학적 설명으로 도출할 수 있음, 표본평균을 이용할 경우 항상 갭(bias)가 있게 된다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;n-1로 나누어야 불편추정량(bias가 없이 추정하기 위해서임)이 된다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[분산분석]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;평균차이를 한 번에 적용할 수 있는 방법을 찾다가 평균차이검정(t검정)에 분산을 사용한 것임.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;엄밀히 말하면 세 집단 이상의 평균차이검정을 &lt;b&gt;효율적으로(한 번에)&lt;/b&gt; 하기 위해서 분산분석을 사용하는 것임.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;평균이 같은지 틀린지를 알고 싶은것임. 쓸데없이 독립표본t검정을 여러 번 하면 힘듦.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[분산분석 원리]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;전체 데이터가 흩어진 정도를 두 부분으로 나눈다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Y의 변동=설명된 변동+설명되지 않은 변동&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(yᵢⱼ &amp;minus; ȳ) = (ȳⱼ &amp;minus; ȳ) + (yᵢⱼ &amp;minus; ȳⱼ) 이걸 제곱해서 합치면&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;SST(총 제곱합)=SSB(집단 간 제곱합between)+SSE(집단 내 제곱합within)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 제곱합을 자유도로 나누어서 제곱평균(Mean Square)을 구한다&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;927&quot; data-origin-height=&quot;222&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/tmpN6/dJMcajvgUnY/27mAYsjW51Z2ukGBXJZkfk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/tmpN6/dJMcajvgUnY/27mAYsjW51Z2ukGBXJZkfk/img.png&quot; data-alt=&quot;c=그룹수, n=전체 관측 수&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/tmpN6/dJMcajvgUnY/27mAYsjW51Z2ukGBXJZkfk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FtmpN6%2FdJMcajvgUnY%2F27mAYsjW51Z2ukGBXJZkfk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;927&quot; height=&quot;222&quot; data-origin-width=&quot;927&quot; data-origin-height=&quot;222&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;c=그룹수, n=전체 관측 수&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;F=MSB(그룹 간 분산 between)/MSE(그룹 내 분산 within)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;F값이 크다는 것은 그룹간 차이가 그룹 내 차이(우연)보다 크다는 것임. -&amp;gt; 귀무가설을 기각한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;F값이 0에 가깝다는 것은 그룹 간의 차이가 오차 수준이라는 것 = 그냥 우연 -&amp;gt; 귀무가설 기각 실패&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;F검정=분산비 검정&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[등분산 가정]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일반적인 ANOVA는 '모든 그룹의 분산이 같다'고 가정하는데, 현실에서는 이 가정이 깨지는 경우가 많다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;등분산 가정이 깨질 때는 그냥 ANOVA를 쓰면 결과가 왜곡될 수 있으므로 &lt;b&gt;Welch F-test&lt;/b&gt;를 사용한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;분산이 크고 표본이 작은 그룹은 (신뢰도가 낮으니) 가중치(Wj)를 낮게 줌&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;분산이 작고 표본의 크기가 큰 그룹은 (신뢰도가 높으니) 가중치(Wj)를 높게 줌&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;회귀분석 = 전체 평균을 벗어나게 만드는 것(차이를 만드는 것)을 확인하는 것임 (anova랑 같은 원리임)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;회귀분석의 SST(Y전체가 흩어진 정도)=SSR(X로 설명된 변동)+SSE(X로 설명 못한 변동)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;R스퀘어(결정계수) 역시 설명된 변동/전체 변동이다. '그룹 간 차이가 전체 변동의 몇 %를 설명하는가?'&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;One-Way ANOVA(일원분산분석)&amp;nbsp; = 독립변수 1개&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;MANOVA = 여기서 M은 multiple. (종속변수가 2개 이상)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[사후검정]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;누가 다른 건지를 파악하는 것.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;기본적으로 여기에서도 표본크기가 같을 때 사용&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ex.Turkey-HSD, Turkey-Kramer(표본크기가 다를 때 쓸 수 있다)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <category>ANOVA</category>
      <category>F검정</category>
      <category>등분산가정</category>
      <category>분산분석</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/81</guid>
      <comments>https://dolphinsnewhome.tistory.com/81#entry81comment</comments>
      <pubDate>Wed, 29 Apr 2026 20:27:36 +0900</pubDate>
    </item>
    <item>
      <title>추적 60분 은둔중년 다큐멘터리 유튜브 댓글 분석 텍스트마이닝</title>
      <link>https://dolphinsnewhome.tistory.com/80</link>
      <description>&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1783&quot; data-origin-height=&quot;913&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/pVy3h/dJMcad2JnsL/SvbMT9bjshVnIdKCIaHro0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/pVy3h/dJMcad2JnsL/SvbMT9bjshVnIdKCIaHro0/img.png&quot; data-alt=&quot;TF-IDF&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/pVy3h/dJMcad2JnsL/SvbMT9bjshVnIdKCIaHro0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FpVy3h%2FdJMcad2JnsL%2FSvbMT9bjshVnIdKCIaHro0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1783&quot; height=&quot;913&quot; data-origin-width=&quot;1783&quot; data-origin-height=&quot;913&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;TF-IDF&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1789&quot; data-origin-height=&quot;913&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/B6iuK/dJMcacv3Wds/c9oPeZqPLFyEji9yMDlFVk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/B6iuK/dJMcacv3Wds/c9oPeZqPLFyEji9yMDlFVk/img.png&quot; data-alt=&quot;N-gram&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/B6iuK/dJMcacv3Wds/c9oPeZqPLFyEji9yMDlFVk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FB6iuK%2FdJMcacv3Wds%2Fc9oPeZqPLFyEji9yMDlFVk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1789&quot; height=&quot;913&quot; data-origin-width=&quot;1789&quot; data-origin-height=&quot;913&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;N-gram&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;790&quot; data-origin-height=&quot;490&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bjrdf8/dJMcadIrapg/sfu09EZ6cPUVjePDTKiG51/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bjrdf8/dJMcadIrapg/sfu09EZ6cPUVjePDTKiG51/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bjrdf8/dJMcadIrapg/sfu09EZ6cPUVjePDTKiG51/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbjrdf8%2FdJMcadIrapg%2Fsfu09EZ6cPUVjePDTKiG51%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;790&quot; height=&quot;490&quot; data-origin-width=&quot;790&quot; data-origin-height=&quot;490&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1989&quot; data-origin-height=&quot;719&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cQjz0A/dJMcabqn1uw/7sF120RBTDCYrUA5tGve0k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cQjz0A/dJMcabqn1uw/7sF120RBTDCYrUA5tGve0k/img.png&quot; data-alt=&quot;LDA Topic Modeling&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cQjz0A/dJMcabqn1uw/7sF120RBTDCYrUA5tGve0k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcQjz0A%2FdJMcabqn1uw%2F7sF120RBTDCYrUA5tGve0k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1989&quot; height=&quot;719&quot; data-origin-width=&quot;1989&quot; data-origin-height=&quot;719&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;LDA Topic Modeling&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1437&quot; data-origin-height=&quot;592&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bCJmRs/dJMcacbJHsC/GVphzQDaQiAreD8ByuL5t1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bCJmRs/dJMcacbJHsC/GVphzQDaQiAreD8ByuL5t1/img.png&quot; data-alt=&quot;감성분석&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bCJmRs/dJMcacbJHsC/GVphzQDaQiAreD8ByuL5t1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbCJmRs%2FdJMcacbJHsC%2FGVphzQDaQiAreD8ByuL5t1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1437&quot; height=&quot;592&quot; data-origin-width=&quot;1437&quot; data-origin-height=&quot;592&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;감성분석&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <category>LDA</category>
      <category>n-gram</category>
      <category>tf-idf</category>
      <category>Topicmodeling</category>
      <category>감성분석</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/80</guid>
      <comments>https://dolphinsnewhome.tistory.com/80#entry80comment</comments>
      <pubDate>Sun, 19 Apr 2026 00:10:38 +0900</pubDate>
    </item>
    <item>
      <title>[기초통계] 독립변수 종속변수 척도 방법론</title>
      <link>https://dolphinsnewhome.tistory.com/79</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 48.3721%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.8063%;&quot;&gt;독립&amp;nbsp; /&amp;nbsp; 종속&lt;/td&gt;
&lt;td style=&quot;width: 19.2556%;&quot;&gt;범주형&lt;/td&gt;
&lt;td style=&quot;width: 15.3101%;&quot;&gt;연속형&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.8063%;&quot;&gt;범주형&lt;/td&gt;
&lt;td style=&quot;width: 19.2556%;&quot;&gt;카이제곱검정&lt;/td&gt;
&lt;td style=&quot;width: 15.3101%;&quot;&gt;t검정, F검정&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.8063%;&quot;&gt;연속형&lt;/td&gt;
&lt;td style=&quot;width: 19.2556%;&quot;&gt;로지스틱 회귀&lt;/td&gt;
&lt;td style=&quot;width: 15.3101%;&quot;&gt;상관분석&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/79</guid>
      <comments>https://dolphinsnewhome.tistory.com/79#entry79comment</comments>
      <pubDate>Wed, 15 Apr 2026 18:55:54 +0900</pubDate>
    </item>
    <item>
      <title>패널고정효과모형과 잠재계층성장분석</title>
      <link>https://dolphinsnewhome.tistory.com/78</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;1. 패널고정효과모형 (Fixed Effecgts Model)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;패널고정효과모형은 관측되지 않은 개별 특성을 통제하여 변수 간의 인과관계를 보다 정확하게 추론하기 위해 사용되는 핵심적인 방법론이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;패널 데이터는 여러 대상을 여러 시점에 걸쳐 관측한 데이터로, 각 대상은 고유한 특성을 가진다. 어떤&amp;nbsp; 특성이 있냐면...&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b data-index-in-node=&quot;0&quot; data-path-to-node=&quot;5,0,0&quot;&gt;관측 가능:&lt;/b&gt; 교육 수준, 성별, 지역 (보통 데이터에 포함됨)&lt;/li&gt;
&lt;li&gt;&lt;b data-index-in-node=&quot;0&quot; data-path-to-node=&quot;5,1,0&quot;&gt;관측 불가능:&lt;/b&gt; 개인의 선천적 능력, 기업의 조직 문화, 국가의 역사적 배경&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;고정효과모형의 핵심 논리는 시간이 흘러도 변하지 않는 각 &lt;b&gt;대상의 고유한 특성(개별 고정효과)&lt;/b&gt;을 모델에서 상쇄시켜 버리는 것이다. 이렇게 함으로써 X와 Y 사이의 순수한 변화 (within variation)만을 포착할 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;개별 고유한 특성은 &lt;b&gt;차분이나 평균 제거&lt;/b&gt;를 통해 제거한다. 각 변수에서 해당 개체의 시계열 평균값을 뺀다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&amp;lt;장점&amp;gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-&lt;b&gt;내생성 통제&lt;/b&gt; : 독립변수와 상관관계가 있는 관측되지 않은 시간 불변 특성을 효과적으로 제거한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;cf.내생성이란? &lt;b&gt;관측 불가능 변수&lt;/b&gt;가 독립변수와 종속변수 모두에 영향을 주어 결과를 왜곡하는 것이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-확률효과모형(Random Effects)보다 가정이 덜 까다로워 사회과학 연구에서 선호된다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&amp;lt;단점&amp;gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-시간 불변 변수 추정 불가 : 성별이나 인종처럼 시간에 따라 변하지 않는 변수의 효과는 개별 고정효과와 함께 사라져 추정할 수 없다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-자유도 손실 : 개체 수가 많을 경우 추정해야 할 파라미터가 늘어나서 효율성이 떨어질 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;2. 잠재계층성장분석(LGCA)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;잠재계층성장분석은 인구집단이 동질적이라는 가정을 배제하고 그 안에 서로 다른 발달 경로를 걷는 여러 하위 집단이 존재함을 전제로 한다. 반면 전통적인 잠재모형(LGM)은 모든 개인이 단일한 평균 궤적을 공유한다고 전제한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&amp;lt;특징&amp;gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-계층 내 동질성 가정 : 동일한 계층에 속한 모든 개인은 동일한 성장 파라미터를 공유하며, 계층 내 분산은 0이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이렇게 하면 모형의 파라미터수를 줄여서 수렴을 용이하게 하지만 실제 데이터를 충분히 반영하지 못한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이를 보완하기 위해 계층 내의 분산을 허용하는 성장혼합모형(GMM)도 있다. 그래서 LCGA는 GMM보다 더 엄격한 형태임.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/78</guid>
      <comments>https://dolphinsnewhome.tistory.com/78#entry78comment</comments>
      <pubDate>Mon, 13 Apr 2026 17:24:34 +0900</pubDate>
    </item>
    <item>
      <title>[기초통계] 가설검정/독립표본t검정</title>
      <link>https://dolphinsnewhome.tistory.com/77</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;[가설검정]&lt;br&gt;-가설검정 : 모수에 대한 새로운 가설이 옳다고 판단할 수 있는지를 표본통계량을 이용해서 평가하고 판단하는 과정&lt;br&gt;-유의수준 : 귀무가설이 옳다는 전제하에서 어느정도 극단적인 표본통계량값이 나오면 귀무가설이 잘못되었다고 판단하여 귀무가설을 기각할 최대한의 확률&lt;br&gt;-임계치 : 검정의 종류(양측, 단측)와 유의수준을 고려해서 산출한 값으로 가설의 채택 여부를 결정짓는 경계값&lt;br&gt;-검정통계량 : 표본으로부터 추출한 통계량이나 검정에 사용할 분포에 따라 그에 맞는 값으로 치환한 통계량&lt;br&gt;-p값 : 표본으로부터 얻은 통계량 혹은 이를 치환한 검정통계량의 절대값보다 더 큰 절대값을 또다른 표본으로부터 얻을 수 있는 확률&lt;/p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;571&quot; data-origin-height=&quot;278&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Dttp1/dJMcagrx5Ox/hgzeiUK4eCWI51j57FyXE0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Dttp1/dJMcagrx5Ox/hgzeiUK4eCWI51j57FyXE0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Dttp1/dJMcagrx5Ox/hgzeiUK4eCWI51j57FyXE0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FDttp1%2FdJMcagrx5Ox%2FhgzeiUK4eCWI51j57FyXE0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;571&quot; height=&quot;278&quot; data-origin-width=&quot;571&quot; data-origin-height=&quot;278&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[독립표본 t검정]&lt;br&gt;양측검정과 단측검정이 있다.&lt;/p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1082&quot; data-origin-height=&quot;433&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/biVfe6/dJMcacvWOFf/91lwTxEa2PTWRAlKNkDHEk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/biVfe6/dJMcacvWOFf/91lwTxEa2PTWRAlKNkDHEk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/biVfe6/dJMcacvWOFf/91lwTxEa2PTWRAlKNkDHEk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbiVfe6%2FdJMcacvWOFf%2F91lwTxEa2PTWRAlKNkDHEk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1082&quot; height=&quot;433&quot; data-origin-width=&quot;1082&quot; data-origin-height=&quot;433&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[분산이 같은 경우와 다른 경우]&lt;/p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;857&quot; data-origin-height=&quot;383&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cWwMv3/dJMcadIj6pK/LXxy6jTyRe68kOf7TlHK40/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cWwMv3/dJMcadIj6pK/LXxy6jTyRe68kOf7TlHK40/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cWwMv3/dJMcadIj6pK/LXxy6jTyRe68kOf7TlHK40/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcWwMv3%2FdJMcadIj6pK%2FLXxy6jTyRe68kOf7TlHK40%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;857&quot; height=&quot;383&quot; data-origin-width=&quot;857&quot; data-origin-height=&quot;383&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;br&gt;&amp;nbsp;&lt;br&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <category>독립표본t검정</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/77</guid>
      <comments>https://dolphinsnewhome.tistory.com/77#entry77comment</comments>
      <pubDate>Thu, 9 Apr 2026 13:10:15 +0900</pubDate>
    </item>
    <item>
      <title>토픽 모델링이란? 토픽 모델링의 원리/가정/차원/알고리즘</title>
      <link>https://dolphinsnewhome.tistory.com/76</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;bull; 대규모 텍스트 데이터에서 숨겨진 '주제(Topic)'나 '이슈'를 추출하는 분석 방법&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;bull; 문서마다 반복적으로 등장하는 단어들의 동시 사용 패턴(빈도와 함께 등장)을 계산하여 데이터 전체에 포함된&lt;b&gt; N개의 주제&lt;/b&gt;를 찾아내는 것이 목표&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;bull; 머신러닝의 &lt;b&gt;비지도 학습&lt;/b&gt;(unsupervised learning) 방식 중 하나로, 주제를 사전 정의하지 않고 찾아내는 방식임.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-&amp;gt;지도학습은 정답이 있는 데이터를 학습 입력 데이터와 함께 각 입력에 대응하는 정답을 미리 알려주고 모델을 학습시킴.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(ex.게임에서 욕설을 입력했을 때 자동으로 처리해주는 것. / 감정 분석.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-&amp;gt;비지도학습은 라벨이 없는 데이터만으로 동작 정답값 없이, 숨겨진 패턴이나 데이터의 그룹을 스스로 찾아내는 방식.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;방향성이 없음. 빅데이터를 탐색하고 분석하기에 적합하다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[원리]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; 여러 문서 내 특정 단어들의 등장 확률을 바탕으로 자주 함께 등장하는 단어 집합을 하나의 주제인 '토픽'으로 간주한다&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; 각 문서는 &lt;b&gt;N개의 토픽이 특정 확률로 혼합되어 있다&lt;/b&gt;는 가정에서 출발함,&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; &lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt; 문서-토픽 분포 : 문서 내에 어떤 토픽이 얼마나 포함되어 있는가?&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; 토픽-단어 분포 : 토픽 내에 어떤 단어가 얼마나 대표적인가?&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;[토픽 모델링 가정]&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; &lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt; 각 토픽은 단어들의 분포이다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; 각 문서는 여러 토픽들의 분포이다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; 각 단어는 각 토픽으로부터 가져온다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;[차원축소]&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; &lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt; 차원의 저주 : 고차원 벡터(문서-단어 행렬)은 너무 많은 연산량과 저장 공간을 요구함.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; 과적합문제 : 학습데이터에 포함된 노이즈까지 너무 자세히 학습하게 되어 새로운 데이터에 대해 잘 일반화하지 못함.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;(--&amp;gt;토픽의 개수가 너무 많아진다.)&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; &lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt; &lt;b&gt;차원 축소 : 유의미하지 않은 단어들을 제거해서 효과적으로 분석해볼 수 있음.&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;불용어를 제거하고, 유의어를 지정(처리)해본다. (내 주제에 맞춰서 설정을 하면 됨)&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;전체 문서의 몇 % 이상 등장하는 단어거나 너무 적게 등장하는 단어는 제거하는 식으로.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; &amp;bull; 3개의 파라미터&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1) 토픽수&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2) &amp;alpha;(문서별 토픽 분포 파라미터) : &amp;alpha;가 클수록 한 문서는 여러 주제를 포함하며 작을수록 소수 주제에 집중&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;3) &amp;beta;(토픽별 단어 분포 파라미터) : &amp;beta;가 크면 한 토픽이 다양한 단어로 구성되고,작으면 특정 몇 단어로만 구성&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; 재현성 : LDA는 확률 기반 토픽 모델이기 때문에, 학습 과정에서 무작위성이 개입한다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;재현성을 위해서 3개의 &lt;b&gt;파라미터, 랜덤 시드, 학습 횟수&lt;/b&gt;는 고정(명시)해야 한다.(투고할 때) &amp;lt;-처음에 코드를 짤 때 아예 요청을 하자.&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;[사용 라이브러리]&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;-gensim, scikit-learn, tomotopy&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;[토픽 모델링 알고리즘]&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;bull;&lt;span&gt; LDA : 잠재 디리클레 할당 (대표)&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;ㄴBlei가 처음 만들었다. 문서는 여러 가지 잠재 주제들의 확률적인 조합으로 생성된다는 발상을 베이지안 확률 모델로 구현하였으며, 기존 텍스트 분석 모델들의 고질적인 과적합 문제를 해결하고 뛰어난 일반화 성능을 달성했다는 데 의의가 있음.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;bull;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; DTM (Dynamic Topic Modeling) &lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;bull;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; DMR (Dirichlet Multinomial Regression) &lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;bull;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; STM (Structural Topic Modeling) (파이썬에는 없고 R에 있다)&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;[토픽수(K) 계산]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-Perplexity(혼란도) : 모델이 문서의 단어를 예측할 때, 얼마나 많은 선택지에 놓이는지 보여주는 지표&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;낮을수록 유리&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-Coherence(응집도) : 각 토픽 안에 속한 단어들이 의미적으로 얼마나 서로 잘 어울리는지를 보여 주는 지표&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;높을수록 유리&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1212&quot; data-origin-height=&quot;530&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bgb0yk/dJMcajhsGiQ/0YXU2KD1MGrq4oGVudgcp0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bgb0yk/dJMcajhsGiQ/0YXU2KD1MGrq4oGVudgcp0/img.png&quot; data-alt=&quot;하지만 너무 숫자에 연연할 필요 없다.&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bgb0yk/dJMcajhsGiQ/0YXU2KD1MGrq4oGVudgcp0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbgb0yk%2FdJMcajhsGiQ%2F0YXU2KD1MGrq4oGVudgcp0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1212&quot; height=&quot;530&quot; data-origin-width=&quot;1212&quot; data-origin-height=&quot;530&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;하지만 너무 숫자에 연연할 필요 없다.&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;하지만 합의가 없기 때문에.. 연구자의 역량에 따라서. 토픽을 얼마나 잘 설명하느냐에 따라 정하면 됨.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/76</guid>
      <comments>https://dolphinsnewhome.tistory.com/76#entry76comment</comments>
      <pubDate>Wed, 8 Apr 2026 15:20:11 +0900</pubDate>
    </item>
    <item>
      <title>[기초통계] t 검정 (차이검정)</title>
      <link>https://dolphinsnewhome.tistory.com/75</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;br&gt;&lt;b&gt;&amp;lt;Z검정&amp;gt;&lt;/b&gt;&lt;/p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;297&quot; data-origin-height=&quot;127&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bhIHNR/dJMcadOYLjq/ip7eSz1C25cBNO1aF9d5K0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bhIHNR/dJMcadOYLjq/ip7eSz1C25cBNO1aF9d5K0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bhIHNR/dJMcadOYLjq/ip7eSz1C25cBNO1aF9d5K0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbhIHNR%2FdJMcadOYLjq%2Fip7eSz1C25cBNO1aF9d5K0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;297&quot; height=&quot;127&quot; data-origin-width=&quot;297&quot; data-origin-height=&quot;127&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-모집단의 분산(표준편차)를 이미 알고 있어야 한다는 것이 가장 문제임.&lt;br&gt;하지만 중심극한정리에 의해 n이 커질수록 t분포는 z분포에 완벽하게 수렴하기 때문에 표본이 클 때는 t검정 = z검정&lt;br&gt;z검정은 다소 까다롭기 때문에 표본 크기 상관없이 안전하게 쓸 수 있는 t검정을 많이 씀..&lt;br&gt;물론 모비율 검정을 할 때는 z검정을 한다.&lt;br&gt;&amp;nbsp;&lt;br&gt;&lt;b&gt;&amp;lt;t분포&amp;gt;&lt;/b&gt;&lt;br&gt;-양조장에서 일하던 윌리엄 고셋은 표본 크기에 따라 분포의 형태가 변해야 함을 깨닫고 'Student'라는 필명으로 t분포 발표&lt;br&gt;(소표본일 때 t분포를 사용한다)&lt;/p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;487&quot; data-origin-height=&quot;402&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/QtNqe/dJMcaduFQF2/J4oSVgwZFeD8dGMJQk5XdK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/QtNqe/dJMcaduFQF2/J4oSVgwZFeD8dGMJQk5XdK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/QtNqe/dJMcaduFQF2/J4oSVgwZFeD8dGMJQk5XdK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FQtNqe%2FdJMcaduFQF2%2FJ4oSVgwZFeD8dGMJQk5XdK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;487&quot; height=&quot;402&quot; data-origin-width=&quot;487&quot; data-origin-height=&quot;402&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;br&gt;-t분포는 좀 낮고 꼬리가 두껍다. 표본이 적어서 분산이 크기 때문 + 극단값들이 나타날 확률이 더 높음&lt;br&gt;-샘플 사이즈가 크다면 z분포와 같아진다. (데이터는 항상 천 개 이상을 쓰도록 하자.)&lt;br&gt;&amp;nbsp;&lt;br&gt;&lt;b&gt;&amp;lt;t 검정&amp;gt;&lt;/b&gt;&lt;br&gt;-t검정은 불확실성을 반영하여 귀무가설 기각에 더 엄격한 기준을 적용한다.&lt;br&gt;&lt;b&gt;-t-검정은 &quot;차이검정&quot;이다.&amp;nbsp;&lt;/b&gt;&lt;br&gt;&lt;b&gt;-F-검정은 &quot;비율검정&quot; &lt;/b&gt;(-&amp;gt;분산 비율을 검정. 세 집단의 평균 차이를 검정하기 위한 효율적인 방법 중의 하나이다) &amp;nbsp;&lt;br&gt;-t값=두 집단의 평균의 차이/표준오차&lt;br&gt;-오류가 작은 것을 선택하는 것이 가설검정이다. 오류는 작을 수록 좋다&lt;br&gt;-&lt;b&gt;검정통계량&lt;/b&gt;은 수집한 표본 데이터로부터 직접 계산해낸 값 (t값, z값, F값 등등..)&lt;br&gt;&lt;u&gt;기준점으로부터 표본의 결과가 얼마나 멀리 떨어져 있는지&lt;/u&gt;를 표준오차 단위로 측정한다.&lt;br&gt;&lt;u&gt;검정통계량의 절댓값이 클수록 내 데이터가 보여주는 '차이'가 크다는 것&lt;/u&gt;을 의미한다.&lt;br&gt;-&lt;b&gt;임계값&lt;/b&gt;은 미리 설정한 유의수준(보통 알파=0.05)에 따라 이론적인 확률분포표에서 찾아낸 고정된 기준선이다.&amp;nbsp;&lt;br&gt;이 선을 넘어가면 통계적으로 의미가 있는 진짜 차이임 (커트라인 같은 것)&lt;br&gt;내 데이터의 &lt;u&gt;검정통계량이 기각역에 떨어지면 영가설(귀무가설)을 기각하게 된다&lt;/u&gt;.&lt;/p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;531&quot; data-origin-height=&quot;391&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/v29Fk/dJMcafe3Jmu/hWgEhwWUCqkHXD3lKPLYI0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/v29Fk/dJMcafe3Jmu/hWgEhwWUCqkHXD3lKPLYI0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/v29Fk/dJMcafe3Jmu/hWgEhwWUCqkHXD3lKPLYI0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fv29Fk%2FdJMcafe3Jmu%2FhWgEhwWUCqkHXD3lKPLYI0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;531&quot; height=&quot;391&quot; data-origin-width=&quot;531&quot; data-origin-height=&quot;391&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&amp;nbsp;&lt;br&gt;&lt;b&gt;&amp;lt;t검정을 위한 기본 가정&amp;gt;&lt;/b&gt;&lt;br&gt;-무작위 표집 : 데이터는 모집단으로부터 무작위로 추출되어야 하며 표본 선택 과정에서 편향이 없다&lt;br&gt;-독립성 : 각 관측치는 서로 통계적으로 독립적이다&lt;br&gt;-정규성 : 데이터가 추출된 모집단이나 표본 평균들이 정규분포를 따른다&lt;br&gt;-등분산성 : 비교하고자 하는 두 독립된 집단의 모집단의 분산이 서로 같아야 한다 (독립표본t검정에서)&lt;br&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>사회학 공부/통계 및 데이터분석</category>
      <category>t-test</category>
      <category>t검정</category>
      <category>t분포</category>
      <category>z분포</category>
      <author>S YE</author>
      <guid isPermaLink="true">https://dolphinsnewhome.tistory.com/75</guid>
      <comments>https://dolphinsnewhome.tistory.com/75#entry75comment</comments>
      <pubDate>Wed, 1 Apr 2026 20:48:17 +0900</pubDate>
    </item>
  </channel>
</rss>