스팸메일 필터링 : 복수의 정보를 가지고 스팸메일을 걸러보자


1. 스팸메일 필터는 베이즈 추정을 사용한다

  • 통계정 추정이나 베이즈 추정 등의 확률적 추론에는 복수의 정보를 사용하는 것이 일반적이다
  • 정보가 많으면 많을 수록 추론 결과의 신빙성이 높아질 것으로 기대한다
  • 2개의 정보로부터 스팸메일일 사후 확률을 계산해보자


2. 필터에 '사전 확률'을 설정한다

  • 지금까지 해왔던 것처럼 사전 확률을 설정하고 하나의 정보를 얻은 뒤 사후 확률을 구해보자
  • 스팸메일 필터는 '우리가 메일을 스팸메일인지 아닌지를 판정하는 것'이 아니라 '받은 메일을 컴퓨터가 기능적으로 판단한다'는 것을 전제로 한다
  • 먼저 컴퓨터는 받은 메일을 검색하기 전에 '그 메일이 스팸메일인가 정상메일인가'에 대하여 사전 확률을 할당한다
  • 여기서는 '이유 불충분의 원리'를 적용하여 각각에 대하여 $0.5$의 확률을 할당한다
    • 즉, 받은 메일에 대하여 필터는 '스팸메일일  확률이 $0.5$, 정상메일일 확률도 $0.5$'라고 평가를 하는 것을 의미한다
    • 이보다 더 신뢰할 수 있는 확률이 있다면 그것을 사전 확률로 설정해도 관계없다


3. 검색할 문자나 문구에 대한 '조건부 확률'을 설정한다

  • 이제 스팸메일에 자주 나오는 문자나 문구 또는 특징을 설정해야 한다
  • 여기서는 '다른 홈페이지의 URL 링크가 삽입되어 있다'는 특징으로 설정하면 다음과 같은 관계가 있다
    • 스팸메일 $\rightarrow$ URL 링크가 있다
    • 정상메일 $\rightarrow$ URL 링크가 없다

  • 위의 관계를 바탕으로 우리는 다음과 같이 거꾸로 판단하면 된다
    • URL 링크가 있다 $\rightarrow$ 스팸메일
    • URL 링크가 없다 $\rightarrow$ 정상메일
  • 그러나 URL 링크가 없는 스팸메일도 많을 뿐만 아니라 정상메일임에도 URL 링크가 있는 메일도 많기 때문에 스팸메일 필터가 정상적으로 동작하지 않는다
  • 이런 경우에는 확률적 추론에서의 '대체'적인 판정을 사용해야 한다, 즉 다음과 같다
    • URL 링크가 있다 $\rightarrow$ 대체로 스팸메일
    • URL 링크가 없다 $\rightarrow$ 대체로 정상메일

  • 여기서 '대체로'를 수치로 나타내는 것이 베이즈 추정의 역할이다
  • 따라서 스팸메일과 정상메일에 각각 어느 정도의 비율로 URL이 삽입되어 있는가를 설정할 필요가 있다
    • 계산을 간략하게 하기 위해서 다음과 같이 확률을 설정한다

    • 위의 사전 확률에 따라  다음 그림과 같이 나타낼 수 있다


4. 검색 결과로 '스팸메일의 베이즈 역확률'이 구해진다

  • 메일의 문장을 검색한 결과 'URL 링크가 있었다'고 가정해보자
  • 이 경우 다음 그림과 같이 나타낼 수 있다


  • 다음과 같이 정규화시키면 '사후 확률'을 구할 수 있다
\begin{eqnarray}\textrm{스팸메일일 사후 확률} : \textrm{정상메일일 사후 확률} &=& 0.5 \times 0.6 : 0.5 \times 0.2\\ &=& 0.3 : 0.1 \\ &=& 3:1 \\ &=& \frac{3}{4} : \frac{1}{4} \tag{10.1}\end{eqnarray}
  • 식 (10.1)에 따라 스팸메일 필터는 다음과 같이 판정하게 된다
\begin{eqnarray}\textrm{URL 링크가 있다는 조건하에서 스팸메일일 사후 확률} = \frac{3}{4} =0.75\end{eqnarray}
  • 메일의 내용을 검색하기 전에는 스팸메일일 확률을 $0.5$로 설정했기 때문에 검색하여 URL 링크를 발견했을 때 스팸메일일 확률이 $0.75$까지 상승하였다
  • 이 경우 '정상메일일 사후 확률'은 $0.25$이지 $0$은 아니기 때문에 '스팸메일일 것이라는 의심이 높아졌다'는 뜻이지 '절대적으로 스팸메일이다'라고 판정된 것은 아니다
  • 예를 들어 이 필터에 '스팸메일일 사후 확률이 $0.95$보다 크면 자동으로 스팸메일함으로 보낸다'라고 설정되어 있다면 이 메일은 스팸메일함으로 이동되지 않고 받은메일함으로 들어가게 된다


복수의 정보를 얻었을 때의 추정


1. 복수의 정보를 바탕으로 베이즈 추정을 실시

  • 지금까지 실시한 베이즈 추정은 사전 정보를 1회로 한정했다
  • 그러나 실제 추정에서는 복수의 정보로부터 이루어진다
  • 베이즈 추정은 복수의 정보를 얻었을 때의 추정에 관해 상당히 중요한 성질을 가진다


2. 두 종류의 실험 조합

  • 직면한 현상에 대한 결과을 얻기위해서는 여러 가지 가능성이 있어 각각의 가능성에 확률을 할당할 수 있는 경우 그 현상을 '실험(experiment)'이라고 부른다
    • 지금까지는 단순히 '정보'라고 해왔지만 이제부터는 '실험'이라는 용어도 사용한다
    • 예를 들어, 주사위를 던져서 나온 눈을 확인한 것이 '실험'이다
    • 또한 내일 날씨가 맑음, 구름, 비, 눈의 네 가지 결론 중 무엇이 될 것인가를 보는 것도 '실험'이다
  • 이제 두 종류의 실험이 있을 때, 그 두 가지를 한데 묶어 그것을 또 다른 실험으로 본다면 그 결론에 대한 각각의 확률은 어떻게 될지에 대해 생각해 보자

두 종류의 실험에 대한 베이즈 확률을 구하기 위해 다음과 같은 경우를 생각해보자

  • 제1실험은 동전을 던져 앞이나 뒤가 나오는 것을 결론으로 하는 확률 현상이다
  • 제2실험은 주사위를 던져서 나올 눈을 결론으로 하는 확률 현상이다
  • 위의 두 시행을 하나로 묶으면 제 3시행이 만들어진다
    • 예를 들어, 제1시행에서 '앞면'이 나오고, 제2시행에서 '$4$'가 나온 경우 이를 하나로 묶어서 '앞면과 $4$'라는 제3시행을 얻을 수 있다
    • 이와 같은 실험을 '직적 실험(direct product experiments)'라고 한다
    • 제3실험의 결과는 다음과 같이 동전의 앞뒤 $2$가지와 주사위의 눈의 수 $6$가지에 대하여 $2\times 6=12$가지가 된다
    • 참고로, '직적' 또는 '직접곱'이라는 수학용어는 각각의 경우를 곱하여 모든 경우의 수를 아래와 같이 격자 모양에 늘어놓아 묶음을 만드는 것을 뜻한다



3. 독립적인 직적실험의 확률은 곱셈으로 구할 수 있다

  • '2개의 실험이 독립'되어 있다는 것은 '어느 한쪽의 실험이 다른 한쪽의 실험 결과에 영향을 미치지 않는다'는 것을 의미하며 '독립 실험'이라고 한다
    • 예를 들어 동전과 주사위를 던지는 실험의 경우, 동전의 앞면이 나오는 결과가 주사위가 어떤 눈이 나오는지에 대해 영향을 주지 않는다
    • 이 것이 '실험의 독립성'이다


  • 그러면 '독립되지 않은 2개의 실험'은 무엇일까?
    • 예를 들어, '서울의 내일 날씨'와 '경기도의 내일 날씨'라는 실험은 '관계가 없다'고 볼 수 없을 것이다
    • 서울에서 내일 비가 온다고 하면 경기도에도 내일 비가 내릴 가능성이 상당히 높다고 추측하는 것이 일반적이다
    • 이처럼 2개의 실험이 독립적이지 않은 실험을 '종속 실험'이라고 한다


  • 실험의 독립성을 논할 때 '서로 영향을 주지 않는다'고 하거나 '관계가 없다'고 정의하는 것은 좋은 방법이 아니다
  • 수학적으로 어떻게 정의하고 계산해야할 것인지 알 수가 없기 때문이다
  • '어느 한쪽의 실험이 다른 실험에 영향을 주지 않는다'는 것과 직감적으로 동일한 것을 뜻하게 될 수학적 계산에 의해 독립성을 정의해보자

독립 실험에 대한 수학적 정의

앞에서 논의했던 동전 던지기와 주사위 던지기 실험을 생각해보자

  • 주사위 던지기에서 눈이 $1$이 나올 확률은 $\frac{1}{6}$이며, 다른 눈이 나올 확률도 동일하게 $\frac{1}{6}$이다
  • 이제 다시 앞의 복합 실험 결과표에서 '앞면'일 경우만을 제외하면 주사위의 각 눈이 나올 확률은 어떻게 될까?
  • 만일 $1$이 나오기 쉽다면(확률이 $\frac{1}{6}$보다 크다면), '앞면'이라는 동전 던지기 실험의 결과가 주사위 던지기 실험에 영향을 준다고 생각할 수 있다
  • 따라서 동전이 '앞면'이라는 결과가 주사위 던지기 실험의 결과 몇이 나오는가에 영향을 주지 않는다면 동전 던지기의 결과 '앞면'의 경우만을 빼더라도 역시 주사위 던지기의 결과는 동일하게 나올 것이다
  • 이는 동전이 '뒷면'이라는 결과에 대해서도 동일하게 적용된다
  • 이 단계에서는 아래 그림에서 위아래 직사각형의 면적이 같다는 사실을 알 수 없다



  • 그런데 주사위의 눈이 '$6$'인 묶음을 뺐을 때 그것이 동전의 '앞'과 '뒤'에 영향을 주지 않는다는 점을 생각하면 오른쪽 끝에 있는 위아래 직사각형 2개는 면적이 같다는 것을 알 수 있다
  • 따라서 위 '격자 모양으로 늘어선 직사각형 $12$개의 면적은 모두 같다'고 할 수 있다


  • 그러면 각 실험(동전 던지기와 주사위 던지기를 묶은 실험)의 결과에 대한 확률을 나타내는 직사각형의 면적은 어떻게 될까요?
  • 정규화 조건에서 합계가 $1$이 된다는 것을 떠올리면 각 직사각형의 면적은 $1\div 12=\frac{1}{12}$임을 알 수 있다
  • 직사각형이 $12$개 인 것은 동전 던지기의 결과 $2$가지와 주사위 던지기의 결과 $6$가지를 곱했기 때문이다
  • 따라서 다음과 같이 정리할 수 있다
\begin{eqnarray} \textrm{직사각형의 면적} &=& \frac{1}{12} \\ &=& \frac{1}{2} \times \frac{1}{6} \\ &=& \textrm{동전 $1$개 던지기의 결과에 대한 확률}\times\textrm{주사위 $1$개 던지기의 결과에 대한 확률}\tag{9.1}\end{eqnarray}
  • 식 (9.1)을 실험의 각 묶음에 대해 구체적으로 적어보면
\begin{eqnarray} \textrm{앞과 $1$이 나올 확률} = \textrm{앞이 나올 확률} \times \textrm{$1$이 나올 확률} \end{eqnarray}
또는
\begin{eqnarray} \textrm{뒤와 $5$가 나올 확률} = \textrm{뒤가 나올 확률} \times \textrm{$5$가 나올 확률} \end{eqnarray}
과 같이 된다

  • 따라서 '묶음의 확률은 각 확률의  곱이 된다'는 뜻이다


4. 독립 실험의 확류에 대한 곱셈 공식

앞의 동전 던지기와 주사위 던지기 실험의 예에서는 직사각형이 완전히 균등하게 분할되어 있는데 이것은 특수한 경우로 일반적인 경우를 생각해보자


  • 예를 들어 제1실험의 결과가 $a$, $b$, $c$, $d$의 $4$가지이며, 제2실험의 결과가 $x$, $y$, $z$의 $3$가지인데 각각 일어날 확률은 같지 않을 수 있다
  • 이 $2$가지 실험이 독립적인 경우, 직적 실험은 다음과 같이 그릴 수 있다


  • 위의 그림에서 행 하나만을 보면 직사각형 $4$개의 면적은 제각각이며, 열 하나를 보더라도 직사각형 $3$개의 면적도 제각각이다
  • 그러나 하나의 행만을 보면 $4$개의 직사각형 각 면적의 비례관계는 어느 행이나 같으며, 열 또한 각 사각형의 면적 비례관계도 동일하다
  • 따라서 각 행에서 $4$개의 직사각형은 제1실험의 결과를 나타내기 때문에 직사각형의 가로 변의 비는 제1실험의 결과의 확률의 비와 같다
  • 또한 각 열에서 $3$개의 직사각형은 제2실험의 결과를 나타내기 때문에 직사각형의 세로 변의 비는 제2실험의 결과의 확률의 비와 같다
  • 따라서 다음과 같이 구할 수 있다
\begin{eqnarray}\textrm{$a$와 $x$일 확률} &=& \textrm{$a$일 확률} \times \textrm{$x$일 확률}\\ \textrm{$a$와 $y$일 확률} &=& \textrm{$a$일 확률} \times \textrm{$y$일 확률}\\\vdots \\ \textrm{$d$와 $z$일 확률} &=& \textrm{$d$일 확률} \times \textrm{$z$일 확률}\\\end{eqnarray}
  • 위와 같은 곱셈 공식을 '독립 실험 확률의 곱셈 공식'이라고 한다



출처 : 세상에서 가장 쉬운 베이트 통계학 입문

베이즈 추정은 최대 우도의 원리(Principle of Maximum Likelihood)에 기반한다

베이즈 통계학과 네이만-피어슨 통계학의 공통점


  • 지금까지 표준 통계학(네이만-피어슨 통계학)과 베이즈 통계학의 사고법의 차이와 논리의 차이에 대해서 알아보면서 무시할 수 없는 차이가 있다는 것을 알았다
  • 특히 베이즈 통계학에서는 표준 통계학에서는 사용하지 않는 사전 확률이라는 개념을 도입하여 사용하고 있다는 것이 큰 차이점이다
    • 추정하려는 결론의 원인으로 여겨지는 대상을 복수 상정하여 각각의 대상에 대하여 '결론이 일어날 가능성' 쯤으로 사전확률을 설정

  • 사전 확률이라는 개념은 베이즈 통계학의 고유한 것이 아니라 표준 통계학에서 같은 사상을 공유하고 있는데 그것은 바로 '최대 우도의 원리(Principle of Maximum Likelihood)' 또는 '최우원리'라는  사고법이다

최대 우도의 원리(Principal of Maximum Likelihood)

  • 최대 우도의 원리는 나타난 결과에 해당하는 각 가설마다 계산된 값 중에서 가장 큰 값을 선택하는 것으로
    • '세상에 일어나는 일은 일어날 확률이 큰 것이다'이라는 개념이다
  • 예를 들어 현상 $X$와 현상 $Y$ 중 어느 하나를 일으키는 원인으로 $A$와 $B$의 두 가지 원인을 지목했다고 해보자
    • 원인 $A$ 하에서는 현상 $X$가 현상 $Y$보다 압도적으로 큰 확률로 일어나고 원인 $B$ 하에서는 현상 $Y$가 현상 $X$보다 압도적으로 큰 확률로 일어난다고 하자
    • 이 때 현상 $X$가 관측되었다면 원인은 $A$와 $B$ 중 어느 쪽일까?
    • 물론 $A$와 $B$ 양쪽의 가능성을 모두 생각할 수 있지만 어느 쪽이냐고 묻는다면 $A$쪽이 원인일 것이라고 생각하는 타당할 것이다
    • 이렇게 생각하는 것이 '최대 우도의 원리'이다

  • 최대 우도의 원리는 일상생활에서도 자주 사용된다. 예를 들어 누군가 어디에 물건을 두고와 잃어버렸는데, 그 사람이 $A$나 $B$ 중 어느 한 사람이라고 하자
    • $A$씨는 물건을 자주 잃어버리는 사람이며, $B$씨는 그런 일이 거의 없는 사람이다
    • 이때 대개는 물건을 잃어버린 사람이 $A$씨일 것이라고 추론할 것이다


  • 이처럼 최대 우도의 원리는 우리에게 매우 익숙한 사고법으로 많은 학분 분야에서 이용되었는데, 특히 물리학 중에서도 통계물리학 분야에서 최대 우도의 원리를 이용해 다양한 물리 현상을 해명하고 있다

베이즈 추정은 최대 우도의 원리에 근거하고 있다

  • 앞에서 설명했던 상자를 추론하는 문제를 살펴보자
    • 상자 $X$에서는 흰 공이 관측될 확률이 매우 크며, 상자 $Y$에서는 검은 공이 관측될 확률이 매우 크다.
    • 이 때, 검은색공이 관측되었기 때문에 '상자는 $Y$일 것이다'라고 판정을 내렸다
    • 이 것은 결과의 확률을 최대로 하는 원인을 선택하였기 때문에 최대 우도의 원리가 적용된 것임을 알 수 있다
    • 이러한 추정의 방법이 베이즈 추정의 원리이다

  • 아래 그림에서 사후 확률을 계산할 때 필요했던 것은 '상자 $X$일 때 검은 공'일 확률과 '상자 $Y$일 때 검은 공'일 확률에 대한 비교이다
    • 상자 $X$와 상자 $Y$의 사후 확률의 비는 $0.05:04=1:8$가 되었기 때문에 상자 $Y$가 될 확률이 압도록 큰 확률이라는 점에서 '단지 상자 $Y$일 것이다'라는 결론을 얻었다
    • 이 것은 검은 공이라는 현상이 관측될 확률을 크게 만드는 원인 상자 $Y$가 선택된 것과 마찬가지로 최대 우도의 원리가 사용되었음을 의미한다


  • 앞에서 '이유 불충분의 원리'를 사용한 베이즈 추정의 예를 되짚어보면 다음과 같다
    • 사후 확률은 $textrm{사전 확률}\times\textrm{조건부 확률}$에 비례
    • 따라서 사전 확률이 크거나 조건부 확률이 큰 원인으로 선택되기 쉽다는 것을 알 수 있는데
    • 이는 최대 우도의 원리와 같은 것임을 알 수 있다


네이판-피어슨 통계학도 최대 우도의 원리에 근거하고 있다

  • 베이즈 추정에서는 추정 그 자체가 최대 우도의 원리가 적용된 것임을 알 수 있었다
  • 이와 달리 표준 통계학에서는 추정 그 자체가 아니라 '통계적 추정을 입증'하는데 사용된다


통계적 추정의 입증

  • 통계학에서 무언가에 대한 추정을 할 때 '왜 그렇게 생각하는가?' '그렇게 생각하는 것이 어떤 이점을 가져다주는가?'를 설명하는 것
  • 예를 들어, 하루에 한 번 일어나거나 또는 일어나지 않는 어떤 현상이 있다고 해보자
    • 더 구체적으로 '손님의 총 인원이 100명을 넘는' 현상을 생각해 보자
    • 이 현상이 일어날 확률을 $p$라고 하면 일어나지 않을 확률은 당연히 $1-p$가 된다
    • 이 현상을 10일동안 관측한 결과 10일 중 4일간 일어났고, 나머지 6일간은 일어나지 않았다
    • 이때 확률 $p$는 몇이라고 추정할 수 있을까?

  • 위의 예에서 '10일 중 4일간 일어났기 때문에 확률 $p$는 $4\div 10=0.4$일 것이다'라고 추정하는 것이 가장 일반적일 것이다
    • 이것은 통계학의 입장에서 말하면 '일어난 횟수의 평균치'를 구해 그것을 확률 $p$라는 추정치로 만든 것과 동일하다
    • 실제로 일어난 일을 $1$로 나타내고, 일어나지 않은 일을 $0$으로 나타낸다면 관측치 $1$은 $4$개, 관측치 $0$은 $6$개가 된다
    • 이 것을 전부 더해 전체 횟수은 $10$으로 나누면 평균치는 $0.4$이다

  • 여기서 의문점은 '왜 일어난 횟수의 평균치를 현상이 일어난 확률 $p$의 추정치로 잡는가?'이다
    • 잘 생각해보면 '몇 번 중에 몇 번 일어났다'는 사실과 '일어날 확률'이라는 것이 직접적으로 연결되어 있지는 않다
    • 사실은 이를 입증하는데 최대 우도의 원리가 사용된 것이다

  • 일어날 확률이 $p$인 현상에 대하여 '이 현상이 $10$번 중 딱 $4$번 일어날 확률' $L$을 $p$의 식으로 나타내보면 다음과 같다
\begin{eqnarray} 10\textrm{번 중 딱} 4\textrm{번 일어날 확률} L = 210 \times p^4 \times(1-p)^6 \tag{8.1}\end{eqnarray}


  • 식 (8.1)에서 확률 $p$값을 변화시켜갈 때 확률 $L$값이 어떻게 변하는지를 그래프로 그려보면 다음과 같다
    • 아래 그래프에서 $p=0.4$일 때 $L$이  최대값을 가진다는 것을 알 수 있다
    • 즉, 평균치인 $0.4$를 $p$로 설정한 경우에 관측된 결과($10$번 중 $4$번 일어났다는 결과)의 확률 $L$이 약 $0.2508227$로 가장 커지는 것이다
    • 이에 따라 통상 통계적 추정에서는 $p=0.4$라고 추정하며, $0.4$를 $p$의 '최대 우도 추정량(MLE; Maximum Likelihood Estimation)'이라고 한다
    • 여기에 '최대 우도(Maximum Likelihood)'라는 단어가 사용된다는 것을 봐도 이 방법에 최대 우도 원리가 적용되었음은 명백하다
    • 실제로 $p=0.2$일 때 결과 $L$의 확률은 $L\approx 0.08808038$이기 때문에 결과의 확률을 크게하는 $p=0.4$쪽이 더 그럴 듯하다고 보는 것이다


    최대 우도 추정량이 평균값이 되는 것은 이 예에서만 나타난 우연이 아니다

    • $N$번 관측해서 $x$번 일어난 경우 최대 우도 측정량이 $x\div N$이 된다는 사실은 미분법을 사용하면 간단하게 증명할 수 있다
      • 식 (8.1)의 최대값을 찾기 위해서는 식 (8.1)을 미분해서 $0$이 되는 식을 만들면 된다(즉, 기울기가 $0$이 되는 값)
    • 즉, 최대 우도 원리는 평균값이라는 통계량과 연결되어 있다는 것을 알 수 있다

  • 여기서  확률 $p$를 움직인다는 것은 현상이 일어나는 원인에 사전 분포를 설정하고 그것을 변화시키는 것과 매우 유사하다
  • 따라서 최대 우도 추정량이라는 사고법은 베이즈 추정의 사고법과 공통되는 것이라고 할 수 있다
  • 이와 같이 최대 우도 원리를 기준으로 하면 표준 통계학과 베이즈 통계학에 공존하는 공통된 사상이 있음을 알 수 있다



출처 : 세상에서 가장 쉬운 베이트 통계학 입문



베이즈 추정은 적은 양의 정보로 그럴듯한 결론을 이끌어 낸다

네이만-피어슨의 추정방법과 다른 점


네이만-피어슨 추정 방법의 문제점

  • 네이만-피어슨 통계학 : 단지 문제를 풀기 위한 확률적 추론의 표준 방식
  • 앞에서 유의수준을 $10\%$로 설정해도 된다면 '검은 공을 관측한 사실'로부터 '상자는 $Y$일 것이다'라는 결론을 도출했다
  • 단 이와 같은 방법을 되풀이하는 한 $10\%$의 확률로 잘못된 판단을 내리게 됨을 각오해야 한다
  • 유의수준을 일반적인 수준인 $5\%$ 또는 $1\%$로 설정한다면 애당초 이 문제를 공 1개만 관측하는 가설검정으로는 판단이 불가능하다

베이즈 추정의 장점

  • 베이즈 추정방법을 사용하면 상자를 추측하는 문제에 확률적 추론을 적용할 수 있다
  • 이 떄 네이만-피어슨 추정방법에 필요한 유의수준의 개념은 필요하지 않다



베이즈 추정으로 앞의 상자 문제를 풀어보자

문제 설정

눈앞에 상자가 하나 있는데, 상자 $X$ 또는 $Y$ 중 하나임은 알고 있지만 겉으로 봐서는 어느 쪽인지 알 수가 없다.

상자 $X$에는 흰 공 $9$개와 검은 공 $1$개가 들어 있고, 상자 $Y$에는 흰 공 $2$개와 검은 공 $8$개가 들어 있따는 정보를 가지고 있다.

이때 상자에서 공을 $1$개 꺼냈더니 검은 공이었다. 눈 앞에 있는 상자는 어느 것일까?


문제 풀이

  • 지금까지 해왔던 것처럼 종류를 설정한다
    • 판단해야 할 것은 눈 앞의 상자가 $X$인가 $Y$인가 이므로 종류는 당연히 $X$와 $Y$가 된다
  • 다음으로 사전 확률을 정한다
    • 눈 앞의 상자가 $X$인지 $Y$인지 알 수가 없고 또 (공을 관측하기 전까지는) 어느 쪽에 더 가까울지도 모르기 때문에 '이유 불충분의 원리'를 사용할 수 밖에 없다
    • 즉 $X$일 사전확률과 $Y$일 사전확률을 모두 $0.5$로 설정한다


  • 다음으로 조건부 확률을 정한다
    • 상자가 $X$일 경우 검은 공일 확률 조건부 확률은 $0.1$, 흰 공일 조건부 확률은 $0.9$이다.
    • 상자가 $Y$일 경우 검은 공일 확률 조건부 확률은 $0.8$, 흰 공일 조건부 확률은 $0.2$이다.



  • 각각의 경우에 대하여 확률을 계산한다
    • 확률은 직사각형의 면적과 같다



  • 관측된 공의 색이 검정이기 때문에 검은 공인 경우만 고려하여 확률을 정규화시킨다
\begin{eqnarray}\textrm{상자가 $X$일 사후확률} : \textrm{상자가 $Y$일 사후확률} &=& 0.5\times 0.1 : 0.5\times 0.8\\ &=& 0.05: 0.4\\&=& 5:40\\&=&1:8\\&=&\frac{1}{9}:\frac{8}{9} \end{eqnarray}

    • 검은 공이 관측된 이후에 상자가 $X$일 확률

$$\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $X$일 확률}) = \frac{1}{9}$$

    • 검은 공이 관측된 이후에 상자가 $Y$일 확률
$$\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $Y$일 확률}) = \frac{8}{9}$$

  • 검은 공이 관측된 이후에 상자가 $X$일 확률보다 $Y$일 확률이 $8$배나 크므로 상자는 $Y$라고 판단하는 것이 타당하다



베이즈 추정은 어떤 환경에서도 '일단' 추정을 할 수 있다

  • 베이즈 추정은 네이만-피어슨 통계학의 가설검정과 같은 유의수준의 설정이 없기 때문에 어떤 환경에서든 '일단' 추정이 가능하다는 장점이 있다
  • 다만 네이만-피어슨 식과 같이 $X$와 $Y$ 어느 한쪽으로 판단을 내리는 것이 아니라 양쪽의 가능성을 남겨둔 채 그 가능성의 비율 관계를 제시하는 것이 전부다
  • 직원 보고한 베이즈 추정 결과에 대한 판단을 내리는 것은 사장의 재량이기 때문에 베이즈 추정을 '사장의 확률'이라고도 한다

  • 위의 문제에서 상자 $X$ 속의 공 $10$개 중에서 검은 공의 개수를 $x$, 상자 $Y$ 속의 공 $10$개 중에서 검은 공의 개수를 $y$라 하면, 검은 공을 관측한 경우 다음과 같은 식을 만들 수 있다
$$\textrm{상자가 $X$일  사후확률} : \textrm{상자가 $Y$일 사후확률} = x : y$$

  • 위 식에 따라 '검은 공이 많이 들어있는 상자 쪽의 사후확률이 커진다'는 것을 알 수 있다
  • 위 가설은 '검은 공을 관측했기 때문에 검은 공이 많이 든 쪽의 상자일 것이다'라는 상당히 소박한 추론을 정당화하고 있다.
  • 통계분석가는 $x:y$의 비율을 보고 '$X$일 것이다' 또는 '$Y$일 것이다' 또는 '어느 한쪽으로 결론을 내리는 것은 타당치 않다' 중 하나의 판단을 내리면 된다



베이즈 추정과 네이만-피어슨 식 추정에서 서로 다른 '리스크'의 의미

가장 주의해야할 것은 베이즈 추정과 네이만-피어슨 식 추정에서 리스크의 의미가 완전히 다르다는 것이다


네이만-피어슨 식의 추정에서의 리스크

  • 유의수준이 리스크의 지표
  • 예를 들어 유의수준을 $5\%$로 설정한 경우는 '같은 방법을 가설검정을 되풀이하는 경우에 $5\%$의 확률로 잘못된 결론을 내린다'는 것을 의미
  • $5\%$라는 리스크는 '지금 내린 결론'에 대한 직접적인 평가가 아니라 사용하고 있는 방법론에 대한 것
  • '$5\%$의 리스크가 있는 방법으로 내린 결론'이라는 간접적인 평가치


베이즈 추정에서의 리스크

  • 사후확률이 리스크의 지표
  • 상자 추정의 예에서 '상자가 $X$일 사후확률'이 $\frac{1}{9}=0.111\ldots$로 계산되었기 때문에 '눈 앞의 상자는 $Y$일 것이다'라고 결론을 내리면 잘못된 결론일 확률이 $0.111\ldots$이 된다
  • 이 확률은 방법론상의 리스크가 아니라 $X$라는 가능성과 $Y$라는 가능성의 비가 $1:8$이라는 사실로부터 직접적으로 산출된 리스크이다


가설검정의 리스크는 결론의 바깥쪽에 있으며 베이즈 추정의 리스크는 결론의 사후확률 그 자체에 있다


또하나 유의해야할 것은 베이즈 추정이 유의수준을  사용하지 않고 판정할 수 있는 것은 사전확률이라는 '수상한' 것을 설정하기 때문이다

  • 사전확률은 기본적으로 '주관적'인 것이다
  • '$\cdots$라는 확률이다'가 아니라 '$\cdots$라는 확률이라고 믿는다' 또는 '일단 $\cdots$라는 확률이라 설정해 두자' 정도이다
  • 따라서 이와 같은 사전확률하에서 추정되는 사후확률에는 항상 자의성이 있으며, 그 책임은 통계분석가의 판단으로 남는다


베이즈 갱신은 다음과 같다

1. $\mathsf{Pr}(\textrm{상자가 $X$일 사전확률}) = 0.5$, $\mathsf{Pr}(\textrm{상자가 $Y$일 사전확률}) = 0.5$

2. 관측된 정보 : 검은 공이 나왔다

3. $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $X$일 사후확률}) = \frac{1}{9}$, $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $Y$일 사후확률}) = \frac{8}{9}$



논리적인 관점에서 본 베이즈 추정의 절차

    • 사실 $1$ : 상자 $X$ 또는 상자 $Y$
    • 사실 $2$ : 상자가 $X$라면 대체로 흰 공
    • 사실 $3$ : 상자가 $Y$라면 대체로 검은 공
    • 사실 $4$ : 검은 공이 나왔다(흰 공이 아니다)

  • 먼저 사실 $2$로부터 상자가 $X$라고 가정하면 (상자가 $X$일 때 검은 공) 또는 (상자가 $X$일 때 흰 공) 모두 가능하지만 '대체로 후자'라는 결론이 도출된다
  • 마찬가지로 사실 $3$으로부터 $Y$라고 가정하면 (상자가 $Y$일 때 검은 공) 또는 (상자가 $Y$일 때 흰 공) 모두 가능하지만 '거의 전자'라는 결론이 도출된다
  • 또한 사실 $4$로부터 (상자가 $X$일 때 검은 공) 또는 (상자가 $Y$일 때 검은 공)의 경우만 남게 된다
  • 전자의 경우는 가능성이 작고 후자일 가능성이 크다는 점을 감안하면, 후자인 '상자가 $Y$일 때 검은 공'일 가능성이 높다고 판단할 수 있다
  • '상자가 $Y$일 때 검은 공'이라면 당연히 상자는 $Y$라는 것이 성립하기 때문에 상자는 $Y$로 결론이 나는 논리구조를 펼 수 있게 된다



연습문제

눈앞에 상자가 하나 있는데 상자 $X$ 또는 $Y$ 중 하나라는 것은 알고 있지만 겉으로 봐서는 어느 쪽인지 알 수가 없다.

상자 $X$에는 흰 공 $8$개와 검은 공 $2$개가 들어 있고, 상자 $Y$에는 흰 공 $3$개와 검은 공 $7$개가 들어 있따는 사실을 알고 있다.

이 때 상자에서 공을 한 개 꺼냈더니 검은 공이었다.

사전확률을 반반으로 설정했을 때 '상자는 $X$다' 또는 '상자는 $Y$다'에 대한 사후확률을 다음 단계에 따라 구하고 상자가 $X$일지 $Y$일지 판단하시오.





  • 종류에 대한 사전확률은 다음과 같다
    • (가) = (          )    
    • (나) = (          )
  • 정보에 대한 조건부 확률은 다음과 같다
    • (다) = (          )    
    • (라) = (          )
    • (마) = (          )    
    • (바) = (          )
  • 각각의 경우에 대한 확률은 다음과 같다
    • (사) = (          )    
    • (아) = (          )
    • (자) = (          )    
    • (차) = (          )
  • '검은 공'이 관측된 경우의 사후확률에 대한 정규화 조건을 충족시키면
    • (사) : (자) = (          ) : (          ) = (          ) : (          )
  • 검은 공이 관측되었을 때 상자가 $X$일 확률 = $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $X$일 사후확률}) = $(          )
  • 검은 공이 관측되었을 때 상자가 $Y$일 확률 = $\mathsf{Pr}(\textrm{검은 공 관측} \mapsto \textrm{상자가 $Y$일 사후확률}) = $(          )
  • 위의 내용으로부터 상자는 (          )일 것이라고 결론짓는다




출처 : 세상에서 가장 쉬운 베이트 통계학 입문

명쾌하고 엄밀하지만 사용처가 한정된 네이만-피어슨 추정


확률적 추론의 문제를 네이만-피어슨 추정으로 풀어보자


확률적 추론의 예

눈 앞에 상자가 하나 있다고 하자. 그 상자가  $X$ 상자인지 $Y$ 상자인지 중 하나라는 것은 알지만 둘 중 어떤 상자인지 겉으로 봐서는 알 수가 없다. 이것이 '명확하지 않은 사항'에 해당한다.

여기서 두개의 상자에 대한 정보가 있다. 두 상자 모두 각각 10개의 공이 들어있는데 상자 $X$에는 흰색 공 9개와 검은 공 1개가 들어있고 상자 $Y$에는 검정색 공 8개와 흰색 공 1개가 들어있다.

이 때 눈 앞의 상자에서 공을 한 개 꺼냈더니 검정색이었다. 검정색 공이라는 것은 '추정'을 위한 정보가 된다. 그렇다면 이 증거로부터 이 상자가 $X$, $Y$ 중 어떤 상자인지 판단할 수 있는가?



먼저 주어진 정보에 따라 사실 관계를 간단명료하게 표현으로 나타내면 다음과 같다

  • 사실 $1$ : $X$ 또는 $Y$
  • 사실 $2$ : $X$라면 대체로 흰색 공
  • 사실 $3$ : $Y$라면 대체로 검정색 공
  • 사실 $4$ : 검정색 공(흰색 공이 아니다)


위 사실을 이용한 추정에는 사실 $2$와 사실 $3$에 '대체로'라는 말이 들어가 있기 때문에 논리적 추론 방법을 사용할 수가 없다

  • 여기에 한 가지 판단을 추가하면 논리적 추론 방법과 거의 같은 방법으로 추정할 수 있다
  • 한 가지 판단이란 '대체로'라는 확률적 수치가 일정 기준만 만족한다면 잘못된 판단을 할 리스크는 각오한다는 것이다


열 번에 한 번 정도, 즉 $10\%$의 확률로 잘못된 결론을 내리는 것은 어쩔 수 없으니 눈감아 주는 것으로 한다면 다음과 같이 추론할 수 있다(네이만-피어슨 추정 방법)

  • 과정 $1$ : $X$라고 가정하자
  • 과정 $2$ : 사실 $2$에서 흰색 공이라고 결론짓는다
    • 이 결론이 '절대적으로 옳은 것은 아니다'
    • 이 결론이 잘못될 확률은 단지 $10\%$이다
    • 상자 $X$에서 꺼낸 공이 검정색일 확률이 $0.1$이기 때문이다
  • 과정 $3$ : $10\%$나마 틀릴 가능성이 있는 과정 $2$의 결론(흰색 공이다)과 사실 $4$는 서로 모순이다
  • 과정 $4$ : 따라서 과정 $1$의 가정(상자는 $X$다)은 잘못된 가정으로 부정(否定)되어 '상자는 $X$가 아니다'라는 결론이 도출된다
    • 이를 통계학의 전문용어로 '과정 $1$의 가정은 기각된다'라고 한다
  • 과정 $5$ : 사실 $1$과 과정 $4$를 바탕으로 '상자는 $Y$다'라는 결론이 난다


위의 네이만-피어슨 추정 방법의 핵심은 '대체로'를 의미하는 확률 $10\%$를 판단을 그르칠 리스크로서 받아들였다는 사실이다

  • 네이만-피어슨 추정 방법을 통해 내려진 결론 '상자는 $Y$다'는 맞는지 틀린지 그 자체는 알 수 없지만
  • 이 방법으로 계속 추정해 나가면 불과 $10\%$의 확률이기는 하나 잘못된 결론을 내리게 된다
  • 즉, 상자가 $X$임에도 $Y$라고 결론내리는 일이 발생하는 것이다


가설검정 과정

앞에서 설명한 확률적 추론 방법은 표준 통계학에서 말하는 가설검정(假說檢定; Statistical Hypothesis Testing) 방법으로 대략적인 절차는 다음과 같다

  • 과정 $1$ : 검정하려는 가설 $X$를 세운다
    • 이 가설을 귀무가설(歸無假說; Null Hypothesis, 기호 H0) 또는 영가설(零假說)이라고 한다
    • 원래 입증하려는 내용과 반대되는 가설로 모집단에서 독립변수와 종속변수 또는 결과변수 사이에 아무런 관련이 없거나 의미가 없다는 가설
  • 과정 $2$ : 가설 $X$가 옳지 않은 경우에 결론지을 가설 $Y$를 준비한다

    • 이 가설을 대립가설(對立假說; Alternative Hypothesis, 기호 H1) 또는 연구 가설 또는 유지 가설이라고 한다
    • 원래 입증하려는 내용의 가설로 모집단에서 독립변수와 종속변수 또는 결과변수 사이에 어떤 특정한 관련이 있다는 가설

  • 과정 $3$ : 가설 $X$가 옳다는 가정하에 작은 확률 $\alpha$로 밖에 관측되지 않는 현상 $x$를 생각한다
  • 과정 $4$ : 현상 $x$가 관측되었는가를 확인한다
  • 과정 $5$ : 현상 $x$가 관측된 경우 귀무가설 $X$가 틀렸다고 판단하여 귀무가설 $X$를 기각하고 대립가설 $Y$를 채택한다
  • 과정 $6$ : 현상 $x$가 관측되지 않은 경우에는 귀무가설 $X$를 기각할 수 없기 때문에 귀무가설 $X$를 채택한다


위의 과정을 요약하면 '$X$가 옳은 경우

  • $\alpha$라는 낮은 확률로 밖에 일어나지 않는 현상이 실제로 관측되었을 때,
    • 가설 $X$가 원래 잘못된 것이라고 판단하여 가설 $X$를 포기한다
  • $\alpha$라는 낮은 확률로 밖에 일어나지 않는 현상이 관측되지 않으면
    • 가설 $X$를 포기할 이유가 없기 때문에 유지한다


여기서 가설 $X$를 기각할 것인가의 기준이 되는  확률 $\alpha$는 전문용어로 유의수준(significance level)이라고 한다

  • $\alpha$의 확률로 일어나는 현상이 관측되면 가설을 포기하게 되므로 '올바른 가설 $X$를 잘못하여 포기할' 확률이 $\alpha$이다
  • 이 방법으로 계속 추정해 나가다보면 $\alpha$의 비율로 판단을 잘못 내리게 됨을 의미한다


위의 가설검정의 과정을 앞의 예에 적용해보자

  • 귀무가설 : 상자는 $X$다
  • 대립가설 : 상자는 $Y$다
  • 유의수준 $\alpha$를 $0.1$로 설정하면 상자 $X$로부터 검은 공이 나오는 것을 관측할 확률은 $\alpha$가 된다
  • 검은 공을 관측했기 때문에 귀무가설 '상자는 $X$다'는 기각되고 대립가설 '상자는 $Y$다'를 채택하게 된다


가설검정에서는 판단을 내리지 않는 사례도 있다

  • 가설검정은 논리적 추론과 비교해봐도 거의 같은 발상에 입각한 상당히 명쾌한 방법론이다
  • 실제로 이 방법이 널리 사용되고 있는데 문제는 '유의수준 $\alpha$를 얼마로 설정할 것인가?'이다
  • 유의수준 $\alpha$는 '거의 관측되지 않을 것 같은 현상'의 확률을 뜻하기 때문에 당연히 그 값을 작게 설정해야 한다
  • 보통은 $5\%(=0.05)$ 또는 $1\%(=0.01)$로 설정한다
    • 위의 값에 대하여 과학적인 근거는 없다


  • 유의수준을 $5\%$ 또는 $1\%$로 설정하면 앞에서 설명한 확률적 추론은 가설검정의 기준과는 맞지 않는다
    • 앞에서 가설 $X$(상자는 $X$다)를 기각할 기준으로 '검은 공이 나오는 것을 관측'하는 현상을 이용하는데
    • 이 확률은 $10\%$라 유의수준 $5\%$보다 훨씬 크기 때문이다
  • 마찬가지로 가설 $Y$를 귀무가설로 해도 가설검정의 기준과는 맞지 않다
    • 이 경우 흰 공이 나오는 사건을 현상 $x$로 두어야 하지만 이것도 $20\%$의 확률이므로 유의수준과는 일치하지 않는다



연습문제

지금 상자 $X$나 $Y$ 중 어느 한쪽임을 알고 있다. 상자 $X$에는 흰 공 $96$개와 검은 공 $4$개가 들어 있다. '상자 $X$다'를 귀무가설로 자바고 '단지 $Y$다'를 대립가설로 잡는다. 이 때 상자에서 공을 한 개 꺼냇더니 검은 공이었다. 틀린 것에 줄을 그으시오.

(1) 유의수준이 $5\%(0.05)$일 때 가설검정의 결론은 기각(된다 / 되지 않는다)

(2) 유의수준이 $1\%(0.01)$일 때 가설검정의 결론은 기각(된다 / 되지 않는다)

(3) (2)번의 상황에서 꺼낸 검은 공을 단지에 다시 넣고 새로 공을 한 개 꺼냈더니 이번에도 검은 공이었다. 이때 가설검정의 결론은 기각(된다 / 되지 않는다)


출처 : 세상에서 가장 쉬운 베이트 통계학 입문

추론의 과정에서 부각되는 베이즈 추정의 특징

베이즈 추정이 어떤 논리구조를 가진 추정인가?

표준 통계적 추정(네이만-피어슨 통계학)과의 차이점을 알아보자


추론이란 무엇인가?

명확하지 않은 사항에 대하여 몇 가지 증거(정보)를 바탕으로 추리하여 그 사실을 밝혀내는 행위를 말한다


가장 전형적인 추론 방법 :  논리적 추론

  • '논리' : 수학의 증명에서 말하는 논리

논리적 추론의 예

눈 앞에 상자가 하나 있다고 하자. 그 상자가  $X$ 상자인지 $Y$ 상자인지 중 하나라는 것은 알지만 둘 중 어떤 상자인지 겉으로 봐서는 알 수가 없다. 이것이 '명확하지 않은 사항'에 해당한다.

여기서 두개의 상자에 대한 정보가 있다. 두 상자 모두 각각 10개의 공이 들어있는데 상자 $X$에는 10개 모두 흰색 공이고 상자 $Y$에는 10개 모두 검정색 공이다.

이 때 눈 앞의 상자에서 공을 한 개 꺼냈더니 검정색이었다. 검정색 공이라는 것은 '추정'을 위한 정보가 된다. 그렇다면 이 증거로부터 이 상자가 $X$, $Y$ 중 어떤 상자인지 판단할 수 있는가?


  • 위의 예는 간단한 추론이라 누구나 상자가 $Y$라고 결론을 내릴 수 있다

논리적 추론 과정

먼저 주어진 정보에 따른 사실 관계를 간단명료하게 표현으로 나타내본다

  • 사실 1 : $X$ 또는 $Y$
  • 사실 2 : $X$라면 흰색 공
  • 사실 3 : $Y$라면 검정색 공
  • 사실 4 : 검정색 공(흰색 공이 아니다)

위의 네 가지 사실로부터 $Y$라는 결론을 이끌어 내는 과정을 수학적인 방법(논리적 연역)으로 도출하는 과정

  • 과정 1 :  $X$라고 가정한다
  • 과정 2 : 과정 $1$과 사실 $2$로부터 흰색 공이 나와야만 한다
  • 과정 3 : 사실 $4$에서 상자에서 나온 공은 검정색(흰색이 아니다)이기 때문에 과정 $2$와는 모순이다
  • 과정 4 : 따라서 과정 $1$에서 정한 가정은 잘못된 가정이기에 $X$가 아니라는 것을 알 수 있다
  • 과정 5 : $X$가 아니기 때문에 사실 $1$로부터 상자는 $Y$라고 결론지어진다

위의 추론 과정에서 이용한 연역적인 방법은 수학의 엄밀한 증명(또는 논리학에서의 연역) 방법으로 비약이 있는 추론은 하나도 없다

  • 컴퓨터도 프로그래밍이 가능한 규칙만을 사용하여 결론을 이끌어 낸다!
  • 이렇게 내린 결론은 논리적인 결론이다

확률적 추론 과정

  • 논리적 추론 과정에서 사용한 예와 비슷한 예를 사용하여 확률적 추론 과정을 살펴보자

확률적 추론의 예

눈 앞에 상자가 하나 있다고 하자. 그 상자가  $X$ 상자인지 $Y$ 상자인지 중 하나라는 것은 알지만 둘 중 어떤 상자인지 겉으로 봐서는 알 수가 없다. 이것이 '명확하지 않은 사항'에 해당한다.

여기서 두개의 상자에 대한 정보가 있다. 두 상자 모두 각각 10개의 공이 들어있는데 상자 $X$에는 흰색 공 9개와 검은 공 1개가 들어있고 상자 $Y$에는 검정색 공 8개와 흰색 공 1개가 들어있다.

이 때 눈 앞의 상자에서 공을 한 개 꺼냈더니 검정색이었다. 검정색 공이라는 것은 '추정'을 위한 정보가 된다. 그렇다면 이 증거로부터 이 상자가 $X$, $Y$ 중 어떤 상자인지 판단할 수 있는가?


  • 이 사례는 사실 $2$와 사실 $3$이 성립하지 않기 때문에 앞에서 설명한 논리적 추론 방법이 통용되지 않는다
  • 그래서 사실 $2$와 사실 $3$을 다음과 같이 바꾸어 추론해야 한다

먼저 주어진 정보에 따라 사실 관계를 간단명료하게 표현으로 나타내본다

  • 사실 1 : $X$ 또는 $Y$
  • 사실 2 : $X$라면 대체로 흰색 공
  • 사실 3 : $Y$라면 대체로 검정색 공
  • 사실 4 : 검정색 공(흰색 공이 아니다)

위 사실들로 부터 누구나 직감적으로 다음과 같은 결론을 얻을 것이다

  • 대체로 $Y$일 것이다

그러면 '대체로'라는 말을 어떻게 해석해야 할까?

  • '대체로'라는 단어의 해석에 표준 통계학과 베이즈 통계학의 입장 차가 선명히 드러난다
  • 표준 통계학 추정
    • '대체로 $Y$일 것이다'를 '리스크는 있지만 $Y$로 결론 짓자'는 의미로 사용
    • 리스크를 각오하고 두 개의 가능성 중 한쪽으로 결론을 내리는 입장
  • 베이즈 통계학 추정
    • '대체로 $Y$일 것이다'를 '$X$와 $Y$ 모두 가능하지만 $Y$쪽의 가능성이 훨씬 더 클 것이다'라는 의미
    • $X$ 또는 $Y$라고 결론을 내리는 방식이 아니라 이른바 양다리를 걸친 결론을 내리되 그 가능성에 무게차를 두는 입장



출처 : 세상에서 가장 쉬운 베이트 통계학 입문

문제 설정

  • 어떤 부부의 첫째 아이가 여아였다고 하자
  • 이때 그 부부에게서 태어날 둘째 아이가 여아일 확률은?

고려 사항

  • 이와 같은 문제에 대한 의문은 '남녀가 태어날 확률은 반반이니 첫째 아이가 여아였다는 사실은 둘째 아이의 성별에 영향을 미치지 않기 때문에 다음에 태어날 아이가 여아일 확률 또한 반반이다'라는 것이다
    • 통계적으로 남녀가 태어나는 비율은 반반이 아니다
      • 미미하나마 남아의 비율이 높은 것으로 알려져 있는데, 일본에서의 비율은 약 $51:49$로 남아 쪽이 많다
      • 비율의 차는 있어서 '남아 쪽이 많다'는 성절은 세계적으로 공통이라고 한다
      • 원인이 무엇이든 생물할적으로 남녀가 태어나는 고유의 원리가 있으며, 이를 동전 던지기와 같은 확률 현상으로 간주할 수는 없을 듯 하다
    • 일반적으로 관찰되는 것은 '다수의 부부에게 태어날 다수의 아이에 관한 통계'이지 '어느 특정 부부에게 태어날 아이에 관한 통계'가 아니다
      • 인류라는 종 전체에 통계적으로 나타나는 성질, 가령 $51:49$와 같은 안정적인 비율이 있다손 치더라도 어느 특정 부부에게서 태어날 아이의 남녀비가 이 비율과 동일하리라는 필연성은 없다
      • 이 부부에게 고유의 특성이 작용하여 '여아가 태어나기 조금 더 쉽다'든가 '남아가 태어나기 조금 더 쉽다'라는 성향이 존재할 가능성도 부정할 수 없다

  • 표준 통계학(네이만-피어슨 통계학이라고도 불린다)은 인류라는 종 전체에 내재된 남녀비와 같은 성향의 해명에는 효력이 있지만 특정 부부에게 잠재해 있는 남녀 중 어느 한쪽이 태어나기 쉬운 특성 등의 문제에는 사용할 수 없다
    • 표준 통계학은 어느 정도 많은 양의 데이터를 사용해야만 추정이 가능하다
    • 특정 부부로 부터 통계적인 검증이 이루어질 수 있을 만큼 다수의 아이가 태어날 리도 없을 뿐더라 그만큼 많은 아이를 낳는 동안 연령의 증가로 인해 신체적인 조건도 달라질 것이다
  • 이와 같은 특정한 부부의 출산에 관한 추정도 베이즈 추정을 사용하면 가능하다
  • 그 이유는 베이즈 추정이 지난 '느슨하다'는 특성 때문이다
    • '느슨하다'라는 의미는 사전 확률이라는 불가사의한 것을 설정할 때 수치가 주관적이어도 좋다는 것을 의미한다


1단계 : 사전 확률 계산하기 - 확률의 확률을 이용한다

  • 먼저 종류 설정이 핵심이다
  • 여기서 설정하는 '종류'란 '그 부부에게서 태어날 아이가 여아일 확률'로 $p$라고 하자
    • 확률 $p$는 $0\leqslant p\leqslant 1$의 값으로 임의로 설정하는 것이 무난하다
    • 즉, 확률 $p$는 $0\leqslant p\leqslant 1$를 만족하는 수들로 연속적으로 분포하는 무한개의 수라고 할 수 있다
    • 여기서는 $p$를 $0.6$과 $0.5$, $0.4$의 세 값으로 설정해 해석한다
  • 이제 부부는 세 종류(여아를 낳을 확률이 $0.4$ 또는 $0.5$, $0.6$ 중의 하나에 속하게 되는데 어느 종류에 속하느는지에 대한 통계적인 데이터가 전혀 없으므로 '이유 불충분의 원리'를 사용한다
    • 즉 각각의 종류에 $\frac{1}{3}$씩 설정한다
    • 만약 $p=0.5$가 될 가능성이 다른 두 가지보다 훨씬 높다고 생각한다면 사전 분포의 설정을 바꾸면 된다
      • 예를 들어 $p=0.4$와 $p=0.6$의 사전 확률을 $0.2$로 $p=0.5$의 사전 확률을 $0.6$으로 하면 된다


2단계 : 조건부 확률 계산하기

  • 앞에서 설정한 확률 $p$가 조건부 확률이 된다
    • 원인 : 여아 또는 남아를 낳기 쉽다
    • 결과 : 여아 또는 남아가 태어난다

부부의 종류

 여아를 낳을 확률

남아를 낳을 확률

 합계

$p=0.4$

$0.4$

$0.6$

$1.0$

 $p=0.5$

 $0.5$

$0.5$

$1.0$

$p=0.6$

 $0.6$

$0.4$

$1.0$

 합계

 $1.2$

$8.8$

 


  • 위의 조건부 확률을 그림으로 표시하면 다음과 같다


3단계 : 가능성이 없는 상황을 제외시키고, 정규화를 통해 사후 확률을 계산한다

  • '첫째가 여아'라는 상황이기 때문에 첫째가 남아인 경우는 제외시킨다.
    • 원인 : 여아 또는 남아를 낳기 쉽다
    • 결과 : 여아 또는 남아


  • 각각의 확률비에 대하여 정규화를 시킨다.
\begin{eqnarray} A:B:C &=& \frac{\frac{0.4}{3}}{\frac{0.4}{3}+\frac{0.5}{3}+\frac{0.6}{3}}:\frac{\frac{0.5}{3}}{\frac{0.4}{3}+\frac{0.5}{3}+\frac{0.6}{3}}:\frac{\frac{0.6}{3}}{\frac{0.4}{3}+\frac{0.5}{3}+\frac{0.6}{3}} \\ &=& \frac{\frac{0.4}{3}}{\frac{1.5}{3}}:\frac{\frac{0.6}{3}}{\frac{1.5}{3}}:\frac{\frac{0.6}{3}}{\frac{1.5}{3}} \\ &=& \frac{4}{15}:\frac{5}{15}:\frac{6}{15}\end{eqnarray}

  • 사후 확률은 다음과 같다
    • $\mathsf{Pr}(p=0.4 \mapsto \textrm{둘째 여아}) = \frac{4}{15} \fallingdotseq 0.2666666666666667$
    • $\mathsf{Pr}(p=0.5 \mapsto \textrm{둘째 여아}) = \frac{4}{15} \fallingdotseq 0.3333333333333333$
    • $\mathsf{Pr}(p=0.6 \mapsto \textrm{둘째 여아}) = \frac{4}{15} = 0.4$


4단계 : 베이즈 갱신

  • 부부의 각 종류에 대하여 사전 확률을 $\frac{1}{3}$로 동일하게 설정하였다
  • 첫째 아이가 여아였다는 관측을 통해 정보가 추가되었다
  • 추가된 정보에 따른 사후 확률은 각각 약 $0.27$과 $0.33$, $0.4$가 되었다
  • 각각의 경우에 따라 사후 확률이 다르기 때문에 여아를 낳기 쉬운 부부라는 추정 결과가 달라지는 것을 알 수 있다


5단계 : 그래서 부부가 여아를 낳을 확률은?

  • 이 부부로부터 태어날 둘째 아이가 여야일 확률을 하나의 수치로 표현하기 위해서는 '평균값(mean)'을 사용한다
  • 확률적 평균값이기 때문에 '기대값(expected value 또는 expectation)'이라고 할 수 있다
$$E(X)= \sum_i p_ix_i$$
  • 따라서  $p$의 기대값은 다음과 같다
\begin{eqnarray} E(p) &\fallingdotseq & 0.4 \times 0.27 + 0.5 \times 0.33 + 0.6 \times 0.4 \\ &=& 0.108 + 0.165 + 0.24 \\ &=& 0.513 \end{eqnarray}
  • 이 부부의 종류(여아를 낳을 확률)을 평균화하면 $0.513$으로 이 값이 이 부부로부터 다음에 태어날 아이가 여아일 확률이라고 해석할 수 있다



출처 : 세상에서 가장 쉬운 베이트 통계학 입문

주관적인 판단을 이용해도 추정이 가능하다

곤란한 상황에서 사용하는 '이유 불충분의 원리


+ Recent posts