Look, See, Why

행렬과 Nearest-Neighbor matching(NNM) 본문

사회학 공부/통계 및 데이터분석

행렬과 Nearest-Neighbor matching(NNM)

S YE 2025. 11. 19. 15:36

● 행렬의 이해

-공분산 행렬 : 다변량 데이터의 분산과 변수들간의 관계를 한 눈에 보여준다. n개의 변수들 간의 모든 분산과 공분산을 모아놓은 정방 대칭 행렬.

 

 

● 행렬의 종류

-정방 행렬 : 행과 열의 개수 같음

-영 행렬 : 모든 요소가 0

-대칭 행렬 : 주대각선을 기준으로 대칭임

-대각 행렬 : 주대각선 요소를 제외한 모든 요소가 0인 정방행렬

●행렬의 이해

-행렬의 덧셈과 뺄셈은 두 행렬의 차원이 같을 때만 가능하다. 같은 위치에 있는 요소끼리 더하거나 뺀다.

-행렬의 곱셈은 첫 번째 행렬의 열 개수와 두 번째 행렬의 행 개수가 같을 때만 가능하며, 계산 결과는 첫 번째 행렬의 행 개수와 두 번째 행렬의 열 개수 차원을 가지게 됨

-행렬의 전치 : 행렬의 행과 열을 바꾸는 것

-항등행렬 : 대각행렬의 특수한 형태. 어떤 행렬을 곱해도 그 행렬이 그대로 나오게 하는 행렬. 숫자 1과 같은 역할

-역행렬 : 숫자에서 역수와 비슷한 역할을 하는 행렬. 어떤 행렬에 역행렬을 곱했을 때 항등행렬이 되게 만든다.

 


● Nearest-Neighbor Matching

-NNM 모형 설명 : 각 개인에 대해 누락된 잠재적 결과를 다른 처치 수준을 받은 유사한 대상들의 결과 평균을 사용하여 추정한다

-거리감은 군집분석, 대응분석, 다차원척도법 등에서 많이 사용된다.

-대상 간의 유사성은 각 관측치에 대한 공변량의 가중 함수를 기반으로 한다.

-ATE는 각 대상에 대한 관찰된 결과와 잠재적 결과 차이의 평균을 취하여 계산한다.

 

●공변량의 가중함수 구하기

-유클리드 거리

-공분산 행렬(유클리드 거리)의 한계 : 아무런 표준화나 가중치를 적용하지 않아서 측정 단위가 크거나 분산이 큰 공변량이 거리계산에 큰 영향력을 미친다. (물론 미리 표준화를 해놓으면 상관이 없다)

-Mahalanobis 거리 

-공분산 행렬의 역행렬(inverse sample covariate(변수) covariance)을 사용한다

-공분산 --> 상관계수처럼, 공분산행렬(유클리드)-->상관행렬(마할라노비스) 로 생각하면 됨.

왼-유클리드, 오-마하로노비스

 

-Invariance : 공분산 행렬에서 대각선 요소(분산)만 추출한 대각 행렬의 역행렬을 이용한 것으로,

공변량 간의 상관관계(공분산)을 무시하고 분산만 사용하여 거리를 표준화한 것이다.

-공변량 correlation 간의 상관관계가 낮거나 거의 없을 때 invariance를 쓴다

 

●STATA - NNM을 이용한 treatment effect 추정

use https://www.stata-press.com/data/r19/cattaneo3, clear
teffects nnmatch (bweight mage prenatal1 mmarried fbaby) (mbsmoke)

-적확매칭옵션 : 매칭의 정확도를 높이기 위한 옵션 기능. 잠재적 편향을 완전히 제거한 후 그 이외의 변수로만 거리를 계산하고자 할 때 사용 -> ematch

 

-편향수정 옵션 : biasadj. 고차원 공변량 공간에서의 근사 오류가 있기 때문에 일치성을 만족시키기 위함임.

But,, nnm은 데이터 손실, 대표성이 문제가 있기 때문에 많이 사용되지는 않는다.