문제 설정

  • 어떤 부부의 첫째 아이가 여아였다고 하자
  • 이때 그 부부에게서 태어날 둘째 아이가 여아일 확률은?

고려 사항

  • 이와 같은 문제에 대한 의문은 '남녀가 태어날 확률은 반반이니 첫째 아이가 여아였다는 사실은 둘째 아이의 성별에 영향을 미치지 않기 때문에 다음에 태어날 아이가 여아일 확률 또한 반반이다'라는 것이다
    • 통계적으로 남녀가 태어나는 비율은 반반이 아니다
      • 미미하나마 남아의 비율이 높은 것으로 알려져 있는데, 일본에서의 비율은 약 $51:49$로 남아 쪽이 많다
      • 비율의 차는 있어서 '남아 쪽이 많다'는 성절은 세계적으로 공통이라고 한다
      • 원인이 무엇이든 생물할적으로 남녀가 태어나는 고유의 원리가 있으며, 이를 동전 던지기와 같은 확률 현상으로 간주할 수는 없을 듯 하다
    • 일반적으로 관찰되는 것은 '다수의 부부에게 태어날 다수의 아이에 관한 통계'이지 '어느 특정 부부에게 태어날 아이에 관한 통계'가 아니다
      • 인류라는 종 전체에 통계적으로 나타나는 성질, 가령 $51:49$와 같은 안정적인 비율이 있다손 치더라도 어느 특정 부부에게서 태어날 아이의 남녀비가 이 비율과 동일하리라는 필연성은 없다
      • 이 부부에게 고유의 특성이 작용하여 '여아가 태어나기 조금 더 쉽다'든가 '남아가 태어나기 조금 더 쉽다'라는 성향이 존재할 가능성도 부정할 수 없다

  • 표준 통계학(네이만-피어슨 통계학이라고도 불린다)은 인류라는 종 전체에 내재된 남녀비와 같은 성향의 해명에는 효력이 있지만 특정 부부에게 잠재해 있는 남녀 중 어느 한쪽이 태어나기 쉬운 특성 등의 문제에는 사용할 수 없다
    • 표준 통계학은 어느 정도 많은 양의 데이터를 사용해야만 추정이 가능하다
    • 특정 부부로 부터 통계적인 검증이 이루어질 수 있을 만큼 다수의 아이가 태어날 리도 없을 뿐더라 그만큼 많은 아이를 낳는 동안 연령의 증가로 인해 신체적인 조건도 달라질 것이다
  • 이와 같은 특정한 부부의 출산에 관한 추정도 베이즈 추정을 사용하면 가능하다
  • 그 이유는 베이즈 추정이 지난 '느슨하다'는 특성 때문이다
    • '느슨하다'라는 의미는 사전 확률이라는 불가사의한 것을 설정할 때 수치가 주관적이어도 좋다는 것을 의미한다


1단계 : 사전 확률 계산하기 - 확률의 확률을 이용한다

  • 먼저 종류 설정이 핵심이다
  • 여기서 설정하는 '종류'란 '그 부부에게서 태어날 아이가 여아일 확률'로 $p$라고 하자
    • 확률 $p$는 $0\leqslant p\leqslant 1$의 값으로 임의로 설정하는 것이 무난하다
    • 즉, 확률 $p$는 $0\leqslant p\leqslant 1$를 만족하는 수들로 연속적으로 분포하는 무한개의 수라고 할 수 있다
    • 여기서는 $p$를 $0.6$과 $0.5$, $0.4$의 세 값으로 설정해 해석한다
  • 이제 부부는 세 종류(여아를 낳을 확률이 $0.4$ 또는 $0.5$, $0.6$ 중의 하나에 속하게 되는데 어느 종류에 속하느는지에 대한 통계적인 데이터가 전혀 없으므로 '이유 불충분의 원리'를 사용한다
    • 즉 각각의 종류에 $\frac{1}{3}$씩 설정한다
    • 만약 $p=0.5$가 될 가능성이 다른 두 가지보다 훨씬 높다고 생각한다면 사전 분포의 설정을 바꾸면 된다
      • 예를 들어 $p=0.4$와 $p=0.6$의 사전 확률을 $0.2$로 $p=0.5$의 사전 확률을 $0.6$으로 하면 된다


2단계 : 조건부 확률 계산하기

  • 앞에서 설정한 확률 $p$가 조건부 확률이 된다
    • 원인 : 여아 또는 남아를 낳기 쉽다
    • 결과 : 여아 또는 남아가 태어난다

부부의 종류

 여아를 낳을 확률

남아를 낳을 확률

 합계

$p=0.4$

$0.4$

$0.6$

$1.0$

 $p=0.5$

 $0.5$

$0.5$

$1.0$

$p=0.6$

 $0.6$

$0.4$

$1.0$

 합계

 $1.2$

$8.8$

 


  • 위의 조건부 확률을 그림으로 표시하면 다음과 같다


3단계 : 가능성이 없는 상황을 제외시키고, 정규화를 통해 사후 확률을 계산한다

  • '첫째가 여아'라는 상황이기 때문에 첫째가 남아인 경우는 제외시킨다.
    • 원인 : 여아 또는 남아를 낳기 쉽다
    • 결과 : 여아 또는 남아


  • 각각의 확률비에 대하여 정규화를 시킨다.
\begin{eqnarray} A:B:C &=& \frac{\frac{0.4}{3}}{\frac{0.4}{3}+\frac{0.5}{3}+\frac{0.6}{3}}:\frac{\frac{0.5}{3}}{\frac{0.4}{3}+\frac{0.5}{3}+\frac{0.6}{3}}:\frac{\frac{0.6}{3}}{\frac{0.4}{3}+\frac{0.5}{3}+\frac{0.6}{3}} \\ &=& \frac{\frac{0.4}{3}}{\frac{1.5}{3}}:\frac{\frac{0.6}{3}}{\frac{1.5}{3}}:\frac{\frac{0.6}{3}}{\frac{1.5}{3}} \\ &=& \frac{4}{15}:\frac{5}{15}:\frac{6}{15}\end{eqnarray}

  • 사후 확률은 다음과 같다
    • $\mathsf{Pr}(p=0.4 \mapsto \textrm{둘째 여아}) = \frac{4}{15} \fallingdotseq 0.2666666666666667$
    • $\mathsf{Pr}(p=0.5 \mapsto \textrm{둘째 여아}) = \frac{4}{15} \fallingdotseq 0.3333333333333333$
    • $\mathsf{Pr}(p=0.6 \mapsto \textrm{둘째 여아}) = \frac{4}{15} = 0.4$


4단계 : 베이즈 갱신

  • 부부의 각 종류에 대하여 사전 확률을 $\frac{1}{3}$로 동일하게 설정하였다
  • 첫째 아이가 여아였다는 관측을 통해 정보가 추가되었다
  • 추가된 정보에 따른 사후 확률은 각각 약 $0.27$과 $0.33$, $0.4$가 되었다
  • 각각의 경우에 따라 사후 확률이 다르기 때문에 여아를 낳기 쉬운 부부라는 추정 결과가 달라지는 것을 알 수 있다


5단계 : 그래서 부부가 여아를 낳을 확률은?

  • 이 부부로부터 태어날 둘째 아이가 여야일 확률을 하나의 수치로 표현하기 위해서는 '평균값(mean)'을 사용한다
  • 확률적 평균값이기 때문에 '기대값(expected value 또는 expectation)'이라고 할 수 있다
$$E(X)= \sum_i p_ix_i$$
  • 따라서  $p$의 기대값은 다음과 같다
\begin{eqnarray} E(p) &\fallingdotseq & 0.4 \times 0.27 + 0.5 \times 0.33 + 0.6 \times 0.4 \\ &=& 0.108 + 0.165 + 0.24 \\ &=& 0.513 \end{eqnarray}
  • 이 부부의 종류(여아를 낳을 확률)을 평균화하면 $0.513$으로 이 값이 이 부부로부터 다음에 태어날 아이가 여아일 확률이라고 해석할 수 있다



출처 : 세상에서 가장 쉬운 베이트 통계학 입문

+ Recent posts