| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 청년비경제활동인구
- 행렬
- 뒤르켐
- 광기의역사
- 육체의 변증법
- 공동생산
- 통계학분포
- LDA
- 청년연구
- 논술대회
- 데이팅앱
- 데이터분석
- 고급통계
- 베이지안통계학
- LDA분석
- 아도르노
- 베버
- 계몽의변증법
- AHP분석
- Grouped-BarChart
- HLM
- 동시출현의미망
- 세종시
- 사회학
- 독립표본t검정
- 파슨스
- Topicmodeling
- 취업준비생연구
- 취준연구
- 고급통계학
- Today
- Total
Look, See, Why
지표의 정규화 Normalization 본문
●지표의 정규화 : 서로 다른 단위를 가진 지표들을 0과 1 사이의 공통된 범위로 변환하여 모든 지표가 동등한 스케일을 가지도록 하는 전처리 과정을 말한다.
-> 종합 지표를 구성하기 위한 필수적인 단계다. 이 과정에서 노이즈를 확인하고 제거할 수 있다.
● 정규화 방법
-비율 정규화 : 기준을 하나 정하고 나머지 모든 값을 그 기준값으로 나누어 비율을 계산한다
ㄴ직관적이지만 지표에 0, 음수값이 있으며 사용하기 곤란함
ㄴ기준이 합계 : 정규화된 값들은 전체에서 차지하는 비중 또는 구성비율(proportion)을 의미하고, 각 행의 합은 항상 1.
ㄴ기준이 평균 : 지표의 모든값에 대한 평균으로 해당지표의 개별값들을 나누는 방식으로, 평균에 비해 몇배 크거나 작은지를 나타내는 것으로 1보다 크면 평균이상, 1보다 작으면 평균이하를의미
ㄴ기준이 특정값 : 지표의 특정 값을 기준으로 각 값들을 나누는 방식.
-Min-Max 정규화 : 최소값이 0, 최대값이 1이 되도록 정규화하는 것.


최솟값과 최댓값을 사용하기 때문에 극단적인 이상치가 하나라도 있으면 불리하다.
-참조점과의 거리 (distance to a Reference) : 목표값(Goalpost)을 기준으로 지표를 표준화하는 방법.
Min-Max의 변형


이상치에 덜 민감.
-순위를 활용한 표준화 : 관측치들의 상대적인 서열 정보를 이용함. 1등~꼴등까지 변환하고 0~1의 값으로 변환.

-Z 점수 정규화 (Z score normalization) : 평균으로부터 각 개별 지표값들이 얼마나 떨어져 있는지 표준편차 단위로 나타내는 기법

평균은 0, 표준편차는 1.
지수산출을 위한 정규화에는 적합하지 않고 이상치를 발견하기 위한 방법으로 활용하는 것이 좋다.
-Softmax 정규화 : 가장 큰 값을 명확하게 드러내기 위한 방법. 부드럽게 전체의 관계를 반영하여 정규화.

-Sigmoid 정규화 : Sigmoid(로지스틱) 함수를 활용함

확률적 해석이 가능하지만 지표값의 크기가 커질수록 기울기가 0에 가까워진다는 단점이 있다.
cf. Sigmoid는 로짓 함수와 역함수 관계이기 때문에 로짓함수를 통해 시그모이드가 도출된다.
로지스틱 회귀분석식에서 확률 값을 중심으로 놓고 정리하면 시그모이드 함수식을 정의할 수 있다.

'사회학 공부 > 통계 및 데이터분석' 카테고리의 다른 글
| 종합 지표 가중합산 방법, 산술기하조화평균 (0) | 2025.11.14 |
|---|---|
| 델파이 기법과 AHP(Analytical Hierarchy Process) 분석 (0) | 2025.11.13 |
| 지표의 타당도, 신뢰도, Interpolation (0) | 2025.11.13 |
| 지표와 지수 (0) | 2025.11.13 |
| STATA로 특정 직업군에 대한 성별 쏠림 현상 분석연습 - Association Model 활용 (2) | 2025.06.14 |