베이즈 추정은 최대 우도의 원리(Principle of Maximum Likelihood)에 기반한다

베이즈 통계학과 네이만-피어슨 통계학의 공통점


  • 지금까지 표준 통계학(네이만-피어슨 통계학)과 베이즈 통계학의 사고법의 차이와 논리의 차이에 대해서 알아보면서 무시할 수 없는 차이가 있다는 것을 알았다
  • 특히 베이즈 통계학에서는 표준 통계학에서는 사용하지 않는 사전 확률이라는 개념을 도입하여 사용하고 있다는 것이 큰 차이점이다
    • 추정하려는 결론의 원인으로 여겨지는 대상을 복수 상정하여 각각의 대상에 대하여 '결론이 일어날 가능성' 쯤으로 사전확률을 설정

  • 사전 확률이라는 개념은 베이즈 통계학의 고유한 것이 아니라 표준 통계학에서 같은 사상을 공유하고 있는데 그것은 바로 '최대 우도의 원리(Principle of Maximum Likelihood)' 또는 '최우원리'라는  사고법이다

최대 우도의 원리(Principal of Maximum Likelihood)

  • 최대 우도의 원리는 나타난 결과에 해당하는 각 가설마다 계산된 값 중에서 가장 큰 값을 선택하는 것으로
    • '세상에 일어나는 일은 일어날 확률이 큰 것이다'이라는 개념이다
  • 예를 들어 현상 $X$와 현상 $Y$ 중 어느 하나를 일으키는 원인으로 $A$와 $B$의 두 가지 원인을 지목했다고 해보자
    • 원인 $A$ 하에서는 현상 $X$가 현상 $Y$보다 압도적으로 큰 확률로 일어나고 원인 $B$ 하에서는 현상 $Y$가 현상 $X$보다 압도적으로 큰 확률로 일어난다고 하자
    • 이 때 현상 $X$가 관측되었다면 원인은 $A$와 $B$ 중 어느 쪽일까?
    • 물론 $A$와 $B$ 양쪽의 가능성을 모두 생각할 수 있지만 어느 쪽이냐고 묻는다면 $A$쪽이 원인일 것이라고 생각하는 타당할 것이다
    • 이렇게 생각하는 것이 '최대 우도의 원리'이다

  • 최대 우도의 원리는 일상생활에서도 자주 사용된다. 예를 들어 누군가 어디에 물건을 두고와 잃어버렸는데, 그 사람이 $A$나 $B$ 중 어느 한 사람이라고 하자
    • $A$씨는 물건을 자주 잃어버리는 사람이며, $B$씨는 그런 일이 거의 없는 사람이다
    • 이때 대개는 물건을 잃어버린 사람이 $A$씨일 것이라고 추론할 것이다


  • 이처럼 최대 우도의 원리는 우리에게 매우 익숙한 사고법으로 많은 학분 분야에서 이용되었는데, 특히 물리학 중에서도 통계물리학 분야에서 최대 우도의 원리를 이용해 다양한 물리 현상을 해명하고 있다

베이즈 추정은 최대 우도의 원리에 근거하고 있다

  • 앞에서 설명했던 상자를 추론하는 문제를 살펴보자
    • 상자 $X$에서는 흰 공이 관측될 확률이 매우 크며, 상자 $Y$에서는 검은 공이 관측될 확률이 매우 크다.
    • 이 때, 검은색공이 관측되었기 때문에 '상자는 $Y$일 것이다'라고 판정을 내렸다
    • 이 것은 결과의 확률을 최대로 하는 원인을 선택하였기 때문에 최대 우도의 원리가 적용된 것임을 알 수 있다
    • 이러한 추정의 방법이 베이즈 추정의 원리이다

  • 아래 그림에서 사후 확률을 계산할 때 필요했던 것은 '상자 $X$일 때 검은 공'일 확률과 '상자 $Y$일 때 검은 공'일 확률에 대한 비교이다
    • 상자 $X$와 상자 $Y$의 사후 확률의 비는 $0.05:04=1:8$가 되었기 때문에 상자 $Y$가 될 확률이 압도록 큰 확률이라는 점에서 '단지 상자 $Y$일 것이다'라는 결론을 얻었다
    • 이 것은 검은 공이라는 현상이 관측될 확률을 크게 만드는 원인 상자 $Y$가 선택된 것과 마찬가지로 최대 우도의 원리가 사용되었음을 의미한다


  • 앞에서 '이유 불충분의 원리'를 사용한 베이즈 추정의 예를 되짚어보면 다음과 같다
    • 사후 확률은 $textrm{사전 확률}\times\textrm{조건부 확률}$에 비례
    • 따라서 사전 확률이 크거나 조건부 확률이 큰 원인으로 선택되기 쉽다는 것을 알 수 있는데
    • 이는 최대 우도의 원리와 같은 것임을 알 수 있다


네이판-피어슨 통계학도 최대 우도의 원리에 근거하고 있다

  • 베이즈 추정에서는 추정 그 자체가 최대 우도의 원리가 적용된 것임을 알 수 있었다
  • 이와 달리 표준 통계학에서는 추정 그 자체가 아니라 '통계적 추정을 입증'하는데 사용된다


통계적 추정의 입증

  • 통계학에서 무언가에 대한 추정을 할 때 '왜 그렇게 생각하는가?' '그렇게 생각하는 것이 어떤 이점을 가져다주는가?'를 설명하는 것
  • 예를 들어, 하루에 한 번 일어나거나 또는 일어나지 않는 어떤 현상이 있다고 해보자
    • 더 구체적으로 '손님의 총 인원이 100명을 넘는' 현상을 생각해 보자
    • 이 현상이 일어날 확률을 $p$라고 하면 일어나지 않을 확률은 당연히 $1-p$가 된다
    • 이 현상을 10일동안 관측한 결과 10일 중 4일간 일어났고, 나머지 6일간은 일어나지 않았다
    • 이때 확률 $p$는 몇이라고 추정할 수 있을까?

  • 위의 예에서 '10일 중 4일간 일어났기 때문에 확률 $p$는 $4\div 10=0.4$일 것이다'라고 추정하는 것이 가장 일반적일 것이다
    • 이것은 통계학의 입장에서 말하면 '일어난 횟수의 평균치'를 구해 그것을 확률 $p$라는 추정치로 만든 것과 동일하다
    • 실제로 일어난 일을 $1$로 나타내고, 일어나지 않은 일을 $0$으로 나타낸다면 관측치 $1$은 $4$개, 관측치 $0$은 $6$개가 된다
    • 이 것을 전부 더해 전체 횟수은 $10$으로 나누면 평균치는 $0.4$이다

  • 여기서 의문점은 '왜 일어난 횟수의 평균치를 현상이 일어난 확률 $p$의 추정치로 잡는가?'이다
    • 잘 생각해보면 '몇 번 중에 몇 번 일어났다'는 사실과 '일어날 확률'이라는 것이 직접적으로 연결되어 있지는 않다
    • 사실은 이를 입증하는데 최대 우도의 원리가 사용된 것이다

  • 일어날 확률이 $p$인 현상에 대하여 '이 현상이 $10$번 중 딱 $4$번 일어날 확률' $L$을 $p$의 식으로 나타내보면 다음과 같다
\begin{eqnarray} 10\textrm{번 중 딱} 4\textrm{번 일어날 확률} L = 210 \times p^4 \times(1-p)^6 \tag{8.1}\end{eqnarray}


  • 식 (8.1)에서 확률 $p$값을 변화시켜갈 때 확률 $L$값이 어떻게 변하는지를 그래프로 그려보면 다음과 같다
    • 아래 그래프에서 $p=0.4$일 때 $L$이  최대값을 가진다는 것을 알 수 있다
    • 즉, 평균치인 $0.4$를 $p$로 설정한 경우에 관측된 결과($10$번 중 $4$번 일어났다는 결과)의 확률 $L$이 약 $0.2508227$로 가장 커지는 것이다
    • 이에 따라 통상 통계적 추정에서는 $p=0.4$라고 추정하며, $0.4$를 $p$의 '최대 우도 추정량(MLE; Maximum Likelihood Estimation)'이라고 한다
    • 여기에 '최대 우도(Maximum Likelihood)'라는 단어가 사용된다는 것을 봐도 이 방법에 최대 우도 원리가 적용되었음은 명백하다
    • 실제로 $p=0.2$일 때 결과 $L$의 확률은 $L\approx 0.08808038$이기 때문에 결과의 확률을 크게하는 $p=0.4$쪽이 더 그럴 듯하다고 보는 것이다


    최대 우도 추정량이 평균값이 되는 것은 이 예에서만 나타난 우연이 아니다

    • $N$번 관측해서 $x$번 일어난 경우 최대 우도 측정량이 $x\div N$이 된다는 사실은 미분법을 사용하면 간단하게 증명할 수 있다
      • 식 (8.1)의 최대값을 찾기 위해서는 식 (8.1)을 미분해서 $0$이 되는 식을 만들면 된다(즉, 기울기가 $0$이 되는 값)
    • 즉, 최대 우도 원리는 평균값이라는 통계량과 연결되어 있다는 것을 알 수 있다

  • 여기서  확률 $p$를 움직인다는 것은 현상이 일어나는 원인에 사전 분포를 설정하고 그것을 변화시키는 것과 매우 유사하다
  • 따라서 최대 우도 추정량이라는 사고법은 베이즈 추정의 사고법과 공통되는 것이라고 할 수 있다
  • 이와 같이 최대 우도 원리를 기준으로 하면 표준 통계학과 베이즈 통계학에 공존하는 공통된 사상이 있음을 알 수 있다



출처 : 세상에서 가장 쉬운 베이트 통계학 입문


+ Recent posts