베이즈 추정은 적은 양의 정보로 그럴듯한 결론을 이끌어 낸다

네이만-피어슨의 추정방법과 다른 점


네이만-피어슨 추정 방법의 문제점

  • 네이만-피어슨 통계학 : 단지 문제를 풀기 위한 확률적 추론의 표준 방식
  • 앞에서 유의수준을 $10\%$로 설정해도 된다면 '검은 공을 관측한 사실'로부터 '상자는 $Y$일 것이다'라는 결론을 도출했다
  • 단 이와 같은 방법을 되풀이하는 한 $10\%$의 확률로 잘못된 판단을 내리게 됨을 각오해야 한다
  • 유의수준을 일반적인 수준인 $5\%$ 또는 $1\%$로 설정한다면 애당초 이 문제를 공 1개만 관측하는 가설검정으로는 판단이 불가능하다

베이즈 추정의 장점

  • 베이즈 추정방법을 사용하면 상자를 추측하는 문제에 확률적 추론을 적용할 수 있다
  • 이 떄 네이만-피어슨 추정방법에 필요한 유의수준의 개념은 필요하지 않다



베이즈 추정으로 앞의 상자 문제를 풀어보자

문제 설정

눈앞에 상자가 하나 있는데, 상자 $X$ 또는 $Y$ 중 하나임은 알고 있지만 겉으로 봐서는 어느 쪽인지 알 수가 없다.

상자 $X$에는 흰 공 $9$개와 검은 공 $1$개가 들어 있고, 상자 $Y$에는 흰 공 $2$개와 검은 공 $8$개가 들어 있따는 정보를 가지고 있다.

이때 상자에서 공을 $1$개 꺼냈더니 검은 공이었다. 눈 앞에 있는 상자는 어느 것일까?


문제 풀이

  • 지금까지 해왔던 것처럼 종류를 설정한다
    • 판단해야 할 것은 눈 앞의 상자가 $X$인가 $Y$인가 이므로 종류는 당연히 $X$와 $Y$가 된다
  • 다음으로 사전 확률을 정한다
    • 눈 앞의 상자가 $X$인지 $Y$인지 알 수가 없고 또 (공을 관측하기 전까지는) 어느 쪽에 더 가까울지도 모르기 때문에 '이유 불충분의 원리'를 사용할 수 밖에 없다
    • 즉 $X$일 사전확률과 $Y$일 사전확률을 모두 $0.5$로 설정한다


  • 다음으로 조건부 확률을 정한다
    • 상자가 $X$일 경우 검은 공일 확률 조건부 확률은 $0.1$, 흰 공일 조건부 확률은 $0.9$이다.
    • 상자가 $Y$일 경우 검은 공일 확률 조건부 확률은 $0.8$, 흰 공일 조건부 확률은 $0.2$이다.



  • 각각의 경우에 대하여 확률을 계산한다
    • 확률은 직사각형의 면적과 같다



  • 관측된 공의 색이 검정이기 때문에 검은 공인 경우만 고려하여 확률을 정규화시킨다
\begin{eqnarray}\textrm{상자가 $X$일 사후확률} : \textrm{상자가 $Y$일 사후확률} &=& 0.5\times 0.1 : 0.5\times 0.8\\ &=& 0.05: 0.4\\&=& 5:40\\&=&1:8\\&=&\frac{1}{9}:\frac{8}{9} \end{eqnarray}

    • 검은 공이 관측된 이후에 상자가 $X$일 확률

$$\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $X$일 확률}) = \frac{1}{9}$$

    • 검은 공이 관측된 이후에 상자가 $Y$일 확률
$$\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $Y$일 확률}) = \frac{8}{9}$$

  • 검은 공이 관측된 이후에 상자가 $X$일 확률보다 $Y$일 확률이 $8$배나 크므로 상자는 $Y$라고 판단하는 것이 타당하다



베이즈 추정은 어떤 환경에서도 '일단' 추정을 할 수 있다

  • 베이즈 추정은 네이만-피어슨 통계학의 가설검정과 같은 유의수준의 설정이 없기 때문에 어떤 환경에서든 '일단' 추정이 가능하다는 장점이 있다
  • 다만 네이만-피어슨 식과 같이 $X$와 $Y$ 어느 한쪽으로 판단을 내리는 것이 아니라 양쪽의 가능성을 남겨둔 채 그 가능성의 비율 관계를 제시하는 것이 전부다
  • 직원 보고한 베이즈 추정 결과에 대한 판단을 내리는 것은 사장의 재량이기 때문에 베이즈 추정을 '사장의 확률'이라고도 한다

  • 위의 문제에서 상자 $X$ 속의 공 $10$개 중에서 검은 공의 개수를 $x$, 상자 $Y$ 속의 공 $10$개 중에서 검은 공의 개수를 $y$라 하면, 검은 공을 관측한 경우 다음과 같은 식을 만들 수 있다
$$\textrm{상자가 $X$일  사후확률} : \textrm{상자가 $Y$일 사후확률} = x : y$$

  • 위 식에 따라 '검은 공이 많이 들어있는 상자 쪽의 사후확률이 커진다'는 것을 알 수 있다
  • 위 가설은 '검은 공을 관측했기 때문에 검은 공이 많이 든 쪽의 상자일 것이다'라는 상당히 소박한 추론을 정당화하고 있다.
  • 통계분석가는 $x:y$의 비율을 보고 '$X$일 것이다' 또는 '$Y$일 것이다' 또는 '어느 한쪽으로 결론을 내리는 것은 타당치 않다' 중 하나의 판단을 내리면 된다



베이즈 추정과 네이만-피어슨 식 추정에서 서로 다른 '리스크'의 의미

가장 주의해야할 것은 베이즈 추정과 네이만-피어슨 식 추정에서 리스크의 의미가 완전히 다르다는 것이다


네이만-피어슨 식의 추정에서의 리스크

  • 유의수준이 리스크의 지표
  • 예를 들어 유의수준을 $5\%$로 설정한 경우는 '같은 방법을 가설검정을 되풀이하는 경우에 $5\%$의 확률로 잘못된 결론을 내린다'는 것을 의미
  • $5\%$라는 리스크는 '지금 내린 결론'에 대한 직접적인 평가가 아니라 사용하고 있는 방법론에 대한 것
  • '$5\%$의 리스크가 있는 방법으로 내린 결론'이라는 간접적인 평가치


베이즈 추정에서의 리스크

  • 사후확률이 리스크의 지표
  • 상자 추정의 예에서 '상자가 $X$일 사후확률'이 $\frac{1}{9}=0.111\ldots$로 계산되었기 때문에 '눈 앞의 상자는 $Y$일 것이다'라고 결론을 내리면 잘못된 결론일 확률이 $0.111\ldots$이 된다
  • 이 확률은 방법론상의 리스크가 아니라 $X$라는 가능성과 $Y$라는 가능성의 비가 $1:8$이라는 사실로부터 직접적으로 산출된 리스크이다


가설검정의 리스크는 결론의 바깥쪽에 있으며 베이즈 추정의 리스크는 결론의 사후확률 그 자체에 있다


또하나 유의해야할 것은 베이즈 추정이 유의수준을  사용하지 않고 판정할 수 있는 것은 사전확률이라는 '수상한' 것을 설정하기 때문이다

  • 사전확률은 기본적으로 '주관적'인 것이다
  • '$\cdots$라는 확률이다'가 아니라 '$\cdots$라는 확률이라고 믿는다' 또는 '일단 $\cdots$라는 확률이라 설정해 두자' 정도이다
  • 따라서 이와 같은 사전확률하에서 추정되는 사후확률에는 항상 자의성이 있으며, 그 책임은 통계분석가의 판단으로 남는다


베이즈 갱신은 다음과 같다

1. $\mathsf{Pr}(\textrm{상자가 $X$일 사전확률}) = 0.5$, $\mathsf{Pr}(\textrm{상자가 $Y$일 사전확률}) = 0.5$

2. 관측된 정보 : 검은 공이 나왔다

3. $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $X$일 사후확률}) = \frac{1}{9}$, $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $Y$일 사후확률}) = \frac{8}{9}$



논리적인 관점에서 본 베이즈 추정의 절차

    • 사실 $1$ : 상자 $X$ 또는 상자 $Y$
    • 사실 $2$ : 상자가 $X$라면 대체로 흰 공
    • 사실 $3$ : 상자가 $Y$라면 대체로 검은 공
    • 사실 $4$ : 검은 공이 나왔다(흰 공이 아니다)

  • 먼저 사실 $2$로부터 상자가 $X$라고 가정하면 (상자가 $X$일 때 검은 공) 또는 (상자가 $X$일 때 흰 공) 모두 가능하지만 '대체로 후자'라는 결론이 도출된다
  • 마찬가지로 사실 $3$으로부터 $Y$라고 가정하면 (상자가 $Y$일 때 검은 공) 또는 (상자가 $Y$일 때 흰 공) 모두 가능하지만 '거의 전자'라는 결론이 도출된다
  • 또한 사실 $4$로부터 (상자가 $X$일 때 검은 공) 또는 (상자가 $Y$일 때 검은 공)의 경우만 남게 된다
  • 전자의 경우는 가능성이 작고 후자일 가능성이 크다는 점을 감안하면, 후자인 '상자가 $Y$일 때 검은 공'일 가능성이 높다고 판단할 수 있다
  • '상자가 $Y$일 때 검은 공'이라면 당연히 상자는 $Y$라는 것이 성립하기 때문에 상자는 $Y$로 결론이 나는 논리구조를 펼 수 있게 된다



연습문제

눈앞에 상자가 하나 있는데 상자 $X$ 또는 $Y$ 중 하나라는 것은 알고 있지만 겉으로 봐서는 어느 쪽인지 알 수가 없다.

상자 $X$에는 흰 공 $8$개와 검은 공 $2$개가 들어 있고, 상자 $Y$에는 흰 공 $3$개와 검은 공 $7$개가 들어 있따는 사실을 알고 있다.

이 때 상자에서 공을 한 개 꺼냈더니 검은 공이었다.

사전확률을 반반으로 설정했을 때 '상자는 $X$다' 또는 '상자는 $Y$다'에 대한 사후확률을 다음 단계에 따라 구하고 상자가 $X$일지 $Y$일지 판단하시오.





  • 종류에 대한 사전확률은 다음과 같다
    • (가) = (          )    
    • (나) = (          )
  • 정보에 대한 조건부 확률은 다음과 같다
    • (다) = (          )    
    • (라) = (          )
    • (마) = (          )    
    • (바) = (          )
  • 각각의 경우에 대한 확률은 다음과 같다
    • (사) = (          )    
    • (아) = (          )
    • (자) = (          )    
    • (차) = (          )
  • '검은 공'이 관측된 경우의 사후확률에 대한 정규화 조건을 충족시키면
    • (사) : (자) = (          ) : (          ) = (          ) : (          )
  • 검은 공이 관측되었을 때 상자가 $X$일 확률 = $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $X$일 사후확률}) = $(          )
  • 검은 공이 관측되었을 때 상자가 $Y$일 확률 = $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $Y$일 사후확률}) = $(          )
  • 위의 내용으로부터 상자는 (          )일 것이라고 결론짓는다




출처 : 세상에서 가장 쉬운 베이트 통계학 입문

+ Recent posts