베이즈 추정은 때로 직감에 크게 반한다
객관적인 데이터를 사용할 때 주의할 점
암에 걸려있을 확률을 계산해보자
- 객관적인 데이터를 이용해 생각하는 베이즈 추정으로 인해 거꾸로 오해에 빠지기 쉬울 수 있다는 것을 이해해야 한다
- 의료 검사 결과 '○○병에 걸렸다/걸리지 않았다'라는 결과가 나왔다면 결과 옳은지 어떻게 판단해야 할까?
- 예를 들어 '특정 암에 걸려 있다면 $95\%$의 확률로 양성이 나오는 검사'를 받은 결과 양성 판정이 나왔다고 하면 암에 걸려있을 확률이 $95\%$라고 판단해야 할까?
- 정답은 '아니오'이다
- '양성'이라는 결과로 부터 '암이다'라는 원인으로 거슬러 올라가는 추정이기에 전형적인 베이즈 추정의 예이다
베이즈 추정을 위한 예제
1. 의료 데이터를 근거로 '사전 확률' 계산하기
- 사전 확률 : 병에 걸려있는지에 대한 정보를 얻기 전의 확률
- 암에 걸릴 확률 : $\mathsf{Pr}(\textrm{암에 걸릴 확률})=0.001(0.1\%)$
- 암에 걸릴 확률이 $0.001$이기 때문에 검사를 받는 사람이 암에 걸려있을 확률을 $0.001$이라고 추정할 수 있다
- 건강한 사람 : $\mathsf{Pr}(\textrm{건강한 사람})=1-\mathsf{Pr}(\textrm{암에 걸릴 사람})=1-0.001=0.999(99.9\%)$
- 암에 걸지지 않을 확률이 $0.999$이기 때문에 검사를 받는 사람이 암에 걸리지 않고 건강한 확률은 $0.999$이라고 추정할 수 있다
2. 검사의 정밀도를 근거로 '조건부 확률' 구하기
- 조건부 확률 : 병에 걸려있는지에 대한 정보를 얻은 후의 확률
- 검사 결과로 나오는 '양성' 또는 '음성'이 정보에 해당된다
- 검사 정밀도에 따른 조건부 확률은 다음과 같다
- 이 검사는 완벽하지 않으며 오진의 위험이 있다는 것을 염두에 두어야 한다
- 오진의 위험은 2가지
- False Negatiive(위음성) : '암에 걸려있는 사람임에도 불구하고 암이 아니라고 진단하는 것'
- False Positive(위양성) : '암이 걸리지 않은 건강한 사람임에도 불구하고 암이라고 진단하는 것'
종류 |
양성일 확률 |
음성일 확률 | 합계 |
암에 걸린 환자 |
$0.95$ |
$0.05$ | $1.0$ |
건강한 사람 |
$0.02$ |
$0.98$ | $1.0$ |
합계 | $0.97$ | $1.03$ |
|
- 위의 확률은 종류를 한정한 상태에서 각 검사 결과에 대한 조건부 확률로 그림으로 나타내면 다음과 같다
- 원인 : 종류(암에 걸린 환자 또는 건강한 사람)
- 결과 : 원인을 알고 있을 때 검사 결과의 확률
3. 검사 결과가 '양성'인 경우만 살펴보면 되기에 '음성'인 경우는 제외한다
- 간이 검사의 결과로 '양성' 판정을 받은 상태이다
- 즉, 검사 결과에 대한 '정보'를 관측하여 추가적인 정보를 얻은 상태
- 검사 결과인 '음성'에 대한 정보는 제외하면 다음 그림처럼 나타낼 수 있다
- 위의 2가지 경우에 대하여 정규화 조건을 만족하도록 만든다
- 암이면서 양성인 경우와 건강하면서 양성인 경우를 합하면 $0.095\% + 1.998\% = 2.093\%$이기 때문에 다음과 같이 식을 정리할 수 있다
- 따라서 최종적인 베이즈 사후 확률은 다음과 같다
4. 베이즈 추정 과정 정리
- 암인가 건강한가에 대한 사전 확률을 계산(역학 데이터 이용)
- 검사의 정밀도에 대한 조건부 확률을 계산(치료 데이터 이용)
- 검사 결과를 관측
- 음성일 가능성 제외
- 암과 건강에 대한 확률의 정규화
- 암일 사후 확률(베이즈 역확률)
5. 사후 확률을 통해 알 수 있는 것은?
- 처음 문제였던 '$95\%$ 정밀도를 가진 암 검사에서 양성이 나온다면 $95\%$의 확률로 암인가?'에 대한 답은 부정적(0.045389)이다
- 베이즈 사후 확률을 통해 $95\%$가 아니라 $4.5389\%$ 밖에 되지 않는다는 것을 알 수 있다
- 사후 확률이 낮은 이유는?
- 원래 암에 걸린 사람 자체가 드물다
- 건강한 사람이 압도적으로 많을 뿐만아니라 건강한 사람을 '양성'으로 진단하는 사례 또한 무시할 수 없을 만큼 많다
- 건강한데도 오진으로 '양성'이 나왔을 가능성이 압도적으로 높기 때문에 과도한 비관은 금물이지만 완전히 마음을 놓아도 될까?
- 전혀 아니다
- 사전 확률과 사후 확률의 갱신 과정은 다음과 같다
- 사전 확률 : $\mathsf{Pr}(\textrm{암에 걸렸을 확률})=0.001$
- 정보 획득 : 검사 결과 '양성'으로 판정
- 사후 확률 : $\mathsf{Pr}(\textrm{검사 결과 양성} \mapsto \textrm{암에 걸렸을 확률})\approx 0.045$
- 아무런 정보가 없을 때 암에 걸렸을 확률은 $0.001$이었지만 검사 결과를 통한 정보('양성')를 근거로 사후 확률을 계산하면 약 $0.045$가 되어 약 $45$배가 증가했다는 것을 알 수 있다
- 검사 결과를 보기 전에는 약 $1000$명 중에 $1$명 정도로 암에 걸린다고 추정하였지만 검사에서 양성이 나온 상태에서는 약 $20$명 중에 $1$명 꼴로 가능성이 높아졌기에 방치해도 되는 상태라고 볼 수 없다
연습 문제
- 인플루엔자 유행 시기에 고열로 병원에 온 환자 중 인플루엔자에 걸린 환자의 비율이 $0.7$, 감기에 걸린 환자의 비율이 $0.3$이라고 하자. 인플루엔자 간이 키트로 검사했더니 '양성'과 '음성'의 비율은 다음 표와 같았다
종류 |
양성일 확률 |
음성일 확률 | 합계 |
인플루엔자 |
$0.8$ |
$0.2$ | $1.0$ |
인플루엔자가 아님 |
$0.1$ |
$0.9$ | $1.0$ |
합계 | $0.9$ | $1.1$ |
|
- 이 때 인플루엔자 간이 키트 검사에서 양성이 나온 경우 인플루엔자일 확률, 음성으로 나온 경우 인플루엔자가 아닐 확률을 구하시오
1. 사전 확률 계산
- 사전 확률 : 인플루엔자에 걸려있는지에 대한 정보를 얻기 전의 확률
- 인플루엔자 환자일 확률 : $\mathsf{Pr}(\textrm{인플루엔자 환자})=0.7(70\%)$
- 감기 환자일 확률 : $\mathsf{Pr}(\textrm{감기 환자})=1-\mathsf{Pr}(\textrm{인플루엔자 환자})=1-0.7=0.3(30\%)$
2. 조건부 확률 계산
- 조건부 확률 : 인플루엔자 간이 키트 검사 결과로 정보를 얻은 후의 확률
- 인플루엔자 간이 키트 정밀도에 의한 조건부 확률
- $\mathsf{Pr}(\textrm{인플루엔자 환자} \mapsto \textrm{양성}) = 0.8$
- $\mathsf{Pr}(\textrm{인플루엔자 환자} \mapsto \textrm{음성}) = 0.2$
- $\mathsf{Pr}(\textrm{감기 환자} \mapsto \textrm{양성}) = 0.1$
- $\mathsf{Pr}(\textrm{감기 환자} \mapsto \textrm{음성}) = 0.9$
- 위의 조건부 확률을 환자의 종류로 한정한 조건부 확률 계산
- $\mathsf{Pr}(\textrm{양성} \mapsto \textrm{인플루엔자 환자}) = 0.7\times 0.8 = 0.56$
- $\mathsf{Pr}(\textrm{음성} \mapsto \textrm{인플루엔자 환자}) = 0.7 \times 0.2 = 0.14$
- $\mathsf{Pr}(\textrm{양성} \mapsto \textrm{감기 환자}) = 0.3 \times 0.1 = 0.03$
- $\mathsf{Pr}(\textrm{음성} \mapsto \textrm{감기 환자}) = 0.3 \times 0.9 = 0.27 $
3. '양성'인 인플루엔자 환자일 계산 : '음성'인 경우 제외하기
- 검사 결과가 '음성'인 경우를 제외하면 다음과 같다
- $\mathsf{Pr}(\textrm{양성} \mapsto \textrm{인플루엔자 환자}) = 0.7\times 0.8 = 0.56$
- $\mathsf{Pr}(\textrm{양성} \mapsto \textrm{감기 환자}) = 0.3 \times 0.1 = 0.03$
- 위의 두 식에 대하여 정규화 조건을 만족하도록 식을 변형하자
- 베이즈 사후 확률
4. '음성'인 인플루엔자 환자일 계산 : '양성'인 경우 제외하기
- 검사 결과가 '음성'인 경우를 제외하면 다음과 같다
- $\mathsf{Pr}(\textrm{음성} \mapsto \textrm{인플루엔자 환자}) = 0.7 \times 0.2 = 0.14$
- $\mathsf{Pr}(\textrm{음성} \mapsto \textrm{감기 환자}) = 0.3 \times 0.9 = 0.27 $
- 위의 두 식에 대하여 정규화 조건을 만족하도록 식을 변형하자
- 베이즈 사후 확률
출처 : 세상에서 가장 쉬운 베이트 통계학 입문
'Bayesian Statistics' 카테고리의 다른 글
06. Neyman-Pearson Inference (0) | 2018.05.30 |
---|---|
05. Bayesian Inference의 특징 (0) | 2018.05.30 |
04. Bayesian Inference - 확률의 확률을 사용하여 추정 (0) | 2018.05.28 |
03. Bayesian Inference - 주관 확률을 이용한 추정 (0) | 2018.05.28 |
01. Bayesian Inference (0) | 2018.05.24 |