정보를 얻으면 확률이 바뀐다!

베이즈 추정으로 '구매 고객'과 '비구매 고객'을 판별하기

1단계 : 경험을 통해 '사전 확률'을 설정

  • 베이즈 통계학에서의 사전 확률(prior probability)
    • 사전(事前) : 어떤 정보가 들어오기 전을 의미
    • 정보를 통해 우리가 원하는 결과에 대한 판단을 할 수 있음
  • 사전 확률의 예
    • 고객의 행동을 관측하기 이전의 상태에서의 고객의 종류('구매 고객'과 '비구매 고객')를 구별하는 비율(확률)
  • 정보의 예
    • '고객이 말을 걸었다'는 것과 같은 추가적인 상황을 의미
    • '말을 걸었다'는 정보를 통해 고객의 종류에 대해 추측(판단)을 할 수 있게 됨
  • 사전 확률 설정하기
    • 사전 확률은 보통 경험에 근거해 설정
    • 고객의 종류에 대하여 비율(확률)을 수치화 해보자
    • 경험상 손님 5명 중 1명이 '구매 고객'이라면 '구매 고객'일 사전 확률은 $\mathsf{Pr}(\textrm{구매 고객})=0.2(20\%)$
      • '비구매 고객'일 사전 확률은 $\mathsf{Pr}(\textrm{비구매 고객})=1-0.2=0.8(80\%)$
      • 정규화(normalization) 조건 : 확률의 전체 합은 항상 $1$
    • 사전 분포(prior distribution) : 고객의 행동을 관측하기 이전의 시점에서 할당한 수치(비율)



2단계 : 고객의 종류별로 '말거는 행동'을 하는 '조건부 확률'을 설정

  • 경험이나 실험 등을 통해, 즉 통계적인 자료에 근거하여 다음과 같이 조건부 확률을 설정
    • 가로축의 합은 항상 $1$로 정규화 조건을 만족
    • 세로축의 합은 $1$이 아닐 수 있다!
      • 다른 종류의 고객에 대한 행동을 나타내고 있는 것이지 행동 전체를 표현하는 것이 아니다

고객의 종류

 말을 걸 확률

말을 걸지 않을 확률

 합계

 구매 고객

$0.9$

$0.1$

$1.0$

 비구매 고객

 $0.3$

$0.7$

$1.0$

 합계

 $1.2$

$8.8$

 



  • 조건부 확률을 수식과 그림으로 표현하면 다음과 같다
    • $\mathsf{Pr}(\textrm{말을 걸다} | \textrm{구매 고객})= \mathsf{Pr}(\textrm{구매 고객} \mapsto \textrm{말을 걸다}) = 0.9$
    • $\mathsf{Pr}(\textrm{말을 걸지 않다} | \textrm{구매 고객})= \mathsf{Pr}(\textrm{구매 고객} \mapsto \textrm{말을 걸지 않다})=0.1$
    • $\mathsf{Pr}(\textrm{말을 걸다} | \textrm{비구매 고객})= \mathsf{Pr}(\textrm{비구매 고객} \mapsto \textrm{말을 걸다})=0.3$
    • $\mathsf{Pr}(\textrm{말을 걸지 않다} | \textrm{비구매 고객})= \mathsf{Pr}(\textrm{비구매 고객} \mapsto \textrm{말을 걸지 않다})=0.7$



  • 위 그림에서 각각의 영역에 대한 확률은 아래 그림과 같이 계산할 수 있다.
    • 전체 영역의 확률값을 계산하면 $\mathrm{A}+\mathrm{B}+\mathrm{C}+\mathrm{D}=0.18+0.02+0.24+0.56=1$이다.


3단계 : 관측한 행동에서 '가능성이 없는 상황'을 제외한다

  • 이제 '고객이 말을 걸었다'는 상황에서 어떤 고객인지 추정을 해보자.
  • '고객이 말을 걸었다'는 것은 고객의 행동 한 가지를 관측해 추가적인 정보를 얻게 된 것이다.
  • 이 상황에서는 '고객이 말을 걸지 않는다'는 가능성은 없어졌다.
  • 따라서 이제 우리가 생각할 수 있는 경우는 위 그림에서 A 또는 C의 상황 뿐이기에 둘 중의 하나만 추정하면 된다.
  • 즉 '고객이 말을 걸은 경우' 대상 고객은 '구매를 한다' 또는 '구매하지 않는다' 2가지의 경우로 처음에 생각했던 4가지 상황에서 2가지 상황으로 줄어든다
  • 이로 인하여 우리의 추정에 대한 확률이 변하게 된다


4단계 : 정규화 과정을 통해 '구매 고객'에 대한 사후 확률을 계산한다

  • '고객이 말을 걸었다'는 행동을 관측한 상황이기에 A(구매 고객이 말을 건다) 또는 C(비구매 고객이 말을 건다)의 상황만이 남게 되었다
  • 이제 A와 C의 상황만 남게되었기에 A와 C의 확률을 계산해 합이 $1$이 되도록 정규화를 해야 한다
  • A와 C의 비율을 정리해 합이 $1$이 되도록 정리하면 확률을 구할 수 있게 된다

\begin{eqnarray}\mathrm{A}:\mathrm{C} &=& 0.18:0.24 \\ &=& 3:4 \\ &=& \frac{3}{7}:\frac{4}{7}\end{eqnarray}

  • 이제 앞에서 구한 조건부 확률에 대한 반대의 상황, 즉 '말을 건 고객이 구매할 확률'은 다음과 같이 추정할 수 있다.
\begin{eqnarray}\mathsf{Pr}(\textrm{말을 걸다} \mapsto \textrm{구매 고객}) = \frac{3}{7}\end{eqnarray}
  • 어떤 정보가 주어진 이후의 상황에 대한 확률을 베이즈 통계학에서 사후 확률(posterior probability) 또는 베이즈 역확률(Bayesian inverse probability)이라고 한다
    • '역확률'에서 '역'이라는 말의 의미는 지금까지 생각해왔던 상황과는 반대로 생각한다는 것
    • 고객이 어떤 행동(말을 걸거나 걸지 않는다)을 확률적으로 선택한다고 생각하고서 해석해 확률을 계산했다
    • 즉 어떤 원인(고객)으로 부터 결과(고객의 행동)가 일어난다고 해석한 것이다
    • 그러니 베이즈 통계학에서는 결과로부터 원인을 추론하는 것이기 때문에 '역'이라는 말을 사용하는 것이다
  • 말을 건 고객이 구매할 사후 확률이 $\frac{3}{7}=0.428\ldots$이지만 행동을 관측하지 않은 상태에서의 고객이 구매할 사전 확률은 $0.2$이다. 따라서 정보가 주어진 경우의 사후 확률이 정보가 주어지지 않은 사전 확률에 비해 2배가 넘게 높아진다는 것을 알 수 있다. 이렇게 확률이 높아지는 것을 베이즈 갱신(Bayesian update)라고 한다

이와 같은 과정을 통해 추론하는 것을 베이즈 추정(Bayesian inference)라고 한다

  • 베이즈 추정은 '사전 확률을 추가적인 정보를 통해 사후 확률로 베이즈 갱신하는 것'이라고 할 수 있다
  • 이러한 추정 방법 전체를 한데 묶어 베이즈 통계학(Bayesian statistics)라고 한다



출처 : 세상에서 가장 쉬운 베이트 통계학 입문

+ Recent posts