이전 장에서 RCT를 시행하지 못했더라도 인과 효과를 추정할 수 있는 방법과 그 가정을 배웠고, Adjust Formula를 접했다. 이번 장에서는 이 가정들을 하나씩 알아본다.

Adjustment Formula

Unconfoundedness, Positivity, No interference, Consistency 가정 하에서, ATE를 관측 데이터로부터 구할 수 있다.

그러면 이 Unconfoundness를 위해서, Confounder로 생각되는 변수들을 최대한 많이 모아 통제해버리면 인과 효과를 제대로 추정할 수 있을 것 같기도 하다.

그러나 그 접근 방식이 쉽지만은 않은데, Adjust Formula에 있었던 몇 가지 가정 중 Positivity 가정이 그 이유를 설명한다.

Positivity (Overlap)

Positivity 가정이란, 임의의 공변량(내가 통제하고자 하는) 값 에서 처치()를 받을 수도 있고, 안 받을 수도 있어야 한다는 것이다.

Positivity

(수식만 보면 처치를 받을 확률만 대충 0을 넘기면 될 것 같지만, 확률이 1보다도 작아야 하기 때문에 처치를 받지 않을 확률도 조금은 있어야 한다.)

Adjustment Formula에서, ATE를 구하기 위해 를 marginalizing하는 과정을 거쳤다.

오른쪽 식을 기댓값 계산 공식과 조건부 확률 공식을 적용해서 풀면 아래와 같다.

  • 원하는 사람만 ㅎ

    빨간색으로 표시된 부분이 0이 되면 분모가 0이 되어버리니까, 계산이 불가능하다는 것.

뭐 수학적으로 접근하자면 그런데,, 직관적으로는 ‘일단 이 그룹에서 치료군이랑 대조군이 둘 다 있지도 않은데 약의 효과를 제대로 측정할 수 있겠냐’ 라는 것 같다.

만약 괴짜 의사가 20대에게는 묻지도 따지지도 않고 약을 처방해서 먹였다면, 20대가 약을 먹지 않았을 때의 결과가 어떻게 될지는 알기 힘들 것이다.

Positivity-Unconfoundness Trade-off

그래서 이게 공변량 변수를 많이 통제하는 거랑 무슨 상관인데?

Condition을 여러 차원으로 확장함은 곧 sub-group을 아주아주 잘게 나눈다는 것이다. (20대로 단순하게 나누다가, 서울에 사는 키 180cm 이상의 20대 남성 등으로 그룹을 쪼개기)

그룹을 잘게 나눌수록, 그 작은 그룹에서 처치를 받을 사람과 받지 않을 사람이 모두 존재할 확률도 아주 낮아질 것이다. 차원의 저주 문제를 안다면 이를 생각해보면 된다.

그래서 공변량 변수를 많이 통제하면 Unconfoundness를 잘 만족시킬 수는 있겠지만, Positivity를 만족시키기는 힘들어지는 trade-off가 발생한다.

No Interference

No Interference

역시 수식으로 보면 조금 복잡해보이지만, 나의 결과(outcome)가 다른 사람의 처치(treatment)에 의해 영향을 받지 않음을 의미한다. 나의 결과는 오로지 나의 처치에 의해서만 결정된다.

어찌 보면 당연해보일 수 있지만, 이 가정이 위반된 대표적인 사례를 살펴보면 이 가정 역시 쉽게 위반될 수도 있음을 알 수 있다.

  • : 백신, : 감염
    내 주변 사람들이 백신을 맞지 않았다면 (), 바이러스가 계속 확산되어 내 감염 확률도 증가할 수 있다 (). 반대로, 내가 백신을 맞지 않았더라도 내 주변 사람들이 모두 백신을 맞으면 내 감염 위험이 낮아질 수 있다. 즉 나의 결과()가 다른 사람의 에 의해 영향을 받는다.

이처럼 네트워크 데이터, 상호작용이 있는 데이터에서는 이 가정이 쉽게 위반될 수 있다고 한다.

Consistency

Consistency

음.. 실제로 받은 처치()에 대한 결과()와 그 Potential Outcome()이 동일함을 의미한다. 이 가정 역시 당연해보이고 잘 와닿지 않을 수도 있는데, 항상 그렇지만은 않을 수도 있다. 이번에도 대표적인 위반 사례와 함께 살펴보자.

  • : 수술, : 치료 여부
    환자가 치료를 위해서 수술을 받는다고 하자. 그런데 이 수술을 신입 인턴 A에게 받았을 때의 , 중증외상센터의 백강혁 교수에게 받았을 때의 는 조금 다를 수 있지 않을까? 즉 내가 정의하지 못한 요소에 의해 가 같음에도 결과()가 달라진다. 만약 가 치료 여부라는 이산형 변수가 아닌 연속형 변수라고 한다면, 조금 더 까다로워짐을 알 수 있다.

따라서 이 가정을 만족하기 위해서는 이 의 정의를 정밀하게 할 필요가 있다. (우리가 문제를 해결하고자 하는 분야에서의 도메인 지식이 중요해지는 것 같다)


SUTVA

방금 다루었던 No Interference 가정과 Consistency 가정을 합쳐 SUTVA(Stable Unit Treatment Value Assumption) 라고도 한다. 인과추론 연구에서 한번씩 등장하는 단어 같으니 알아두면 좋을 것 같다 ㅎ

또 이제 Unconfoundness와, 방금 다룬 3가지 가정들을 이용해서 Adjustment Formula를 증명할 수 있다!

인과효과를 올바르게 추정하기 위해서는 상당히 많은, 또 만족되기 힘들 수도 있는 가정들이 뒷받침되어야함을 알 수 있었다. 그래서 큰 의미가 없어 보일 수도 있지만, 사실 완벽한 데이터가 어디 있겠는가 ㅎㅎ

연구자가 데이터에서 인과 관계를 추론할 때, 최소한 어떤 점을 고민하고 어떤 방향으로 접근해야 하는지 (좋은 공변량을 고민하고, 실험 설계나 데이터 탐색을 어떻게 진행해야 할지 고민하는) 이론적 토대가 되어준다는 점에서 많은 의미가 있다고 생각한다.