Look, See, Why

생존분석의 이해 -> 세종시 청년 전입전출 아이디어 본문

사회학 공부/통계 및 데이터분석

생존분석의 이해 -> 세종시 청년 전입전출 아이디어

S YE 2026. 1. 3. 13:40

1. 생존분석의 개념

-생존자료로 데이터를 분석하는 통계기법

-사건 : 사망, 재발

-시간 : 생존 시간, 재발 시간

X : 비교 집단 / 위험 인자

Y : 생존자료(Event(사건), Time(시간))

(1) 집단 간 생존율 비교 분석 : X가 비교집단. 집단 간에 생존율 차이가 있는지 확인

(2) 생존율에 영향을 미치는 요인 : X가 위험인자. 위험 인자를 활용하여 위험 모형을 만든다

 

2. 생존분석 방법론 : 생존곡선

(1) Kaplan-Meier Curve (KM curve)

-생존자료 시각화

-사건 발생시점 기준으로 생존곡선 추정

(2) Log-rank test

-통계적으로 유의미한지 확인

일반적으로 p-value가 0.05보다 클 때 유의하다고 한다.

 

3. 생존분석 방법론 : 위험모형

Cox regression : 위험인자(X)가 생존율(Y)에 미치는 영향분석

회귀분석과 유사하게 이해하면 된다

X에는 범주형(성별)이 와도 되고 연속형(나이)이 와도 됨

(1) HR(Hazard Ratio)로 위험인자의 영향을 평가

HR > 1 : 위험발생확률 커짐

HR < 1 : 위험발생확률 작아짐

(2) p-value로 결과 유의성 확인


*연구 아이디어 : 세종시로 전입한 청년의 재전출 위험 확인하기.

-코호트 : 2018~2024년에 세종으로 처음 전입한 19-34세 청년.

-사건 : 사건=1 세종에서 전출함 / 사건=0 세종에 거주

-시간 : 시작 = 전입한 시점 / 끝 = 전출한 시점 (개월 단위)

[예시]

아이디 001

전입 : 2023-12

전출 : 2026-12

체류개월 : 36

event : 1

설명변수 : 여성 / 전입 당시 나이 만26세 / 미혼 / 수도권 출신

 

[KM curve]

분석 : KM curve 으로 현상 파악

ㄴ"전입 후 1년/2년/3년에 몇 %가 세종이 남아있는가?"

-그룹비교 : 20대 vs 30대 / 수도권 출신 vs 비수도권 출신

 

[Cox 모형]

Cox 모형 : "어떤 요인이 전출 위험을 몇 배로 바꾸는가?"

 

[결정요인 분해]

block A : 개인 기본

block B : 일자리(고용률, 사업체 수,공공기관 비중)

block C : 주거(전세/월세/매매가격)

block D : 생활SOC(교통, 의료, 보육, 공원 등)

-> 모형에 블록A~D를 순서대로 넣어본다

 

[결과]

전입 후 1년, 2년, 3년 시좀 잔존율은 ~%였다.

주거비가 1단위 상승할 때 전출 위험은 ~% 증가했다.

일자리->주거->SOC 순으로 투입했을 때, 설명력이 가장 크게 변한 블록은 block B(일자리) 였다.