명쾌하고 엄밀하지만 사용처가 한정된 네이만-피어슨 추정


확률적 추론의 문제를 네이만-피어슨 추정으로 풀어보자


확률적 추론의 예

눈 앞에 상자가 하나 있다고 하자. 그 상자가  $X$ 상자인지 $Y$ 상자인지 중 하나라는 것은 알지만 둘 중 어떤 상자인지 겉으로 봐서는 알 수가 없다. 이것이 '명확하지 않은 사항'에 해당한다.

여기서 두개의 상자에 대한 정보가 있다. 두 상자 모두 각각 10개의 공이 들어있는데 상자 $X$에는 흰색 공 9개와 검은 공 1개가 들어있고 상자 $Y$에는 검정색 공 8개와 흰색 공 1개가 들어있다.

이 때 눈 앞의 상자에서 공을 한 개 꺼냈더니 검정색이었다. 검정색 공이라는 것은 '추정'을 위한 정보가 된다. 그렇다면 이 증거로부터 이 상자가 $X$, $Y$ 중 어떤 상자인지 판단할 수 있는가?



먼저 주어진 정보에 따라 사실 관계를 간단명료하게 표현으로 나타내면 다음과 같다

  • 사실 $1$ : $X$ 또는 $Y$
  • 사실 $2$ : $X$라면 대체로 흰색 공
  • 사실 $3$ : $Y$라면 대체로 검정색 공
  • 사실 $4$ : 검정색 공(흰색 공이 아니다)


위 사실을 이용한 추정에는 사실 $2$와 사실 $3$에 '대체로'라는 말이 들어가 있기 때문에 논리적 추론 방법을 사용할 수가 없다

  • 여기에 한 가지 판단을 추가하면 논리적 추론 방법과 거의 같은 방법으로 추정할 수 있다
  • 한 가지 판단이란 '대체로'라는 확률적 수치가 일정 기준만 만족한다면 잘못된 판단을 할 리스크는 각오한다는 것이다


열 번에 한 번 정도, 즉 $10\%$의 확률로 잘못된 결론을 내리는 것은 어쩔 수 없으니 눈감아 주는 것으로 한다면 다음과 같이 추론할 수 있다(네이만-피어슨 추정 방법)

  • 과정 $1$ : $X$라고 가정하자
  • 과정 $2$ : 사실 $2$에서 흰색 공이라고 결론짓는다
    • 이 결론이 '절대적으로 옳은 것은 아니다'
    • 이 결론이 잘못될 확률은 단지 $10\%$이다
    • 상자 $X$에서 꺼낸 공이 검정색일 확률이 $0.1$이기 때문이다
  • 과정 $3$ : $10\%$나마 틀릴 가능성이 있는 과정 $2$의 결론(흰색 공이다)과 사실 $4$는 서로 모순이다
  • 과정 $4$ : 따라서 과정 $1$의 가정(상자는 $X$다)은 잘못된 가정으로 부정(否定)되어 '상자는 $X$가 아니다'라는 결론이 도출된다
    • 이를 통계학의 전문용어로 '과정 $1$의 가정은 기각된다'라고 한다
  • 과정 $5$ : 사실 $1$과 과정 $4$를 바탕으로 '상자는 $Y$다'라는 결론이 난다


위의 네이만-피어슨 추정 방법의 핵심은 '대체로'를 의미하는 확률 $10\%$를 판단을 그르칠 리스크로서 받아들였다는 사실이다

  • 네이만-피어슨 추정 방법을 통해 내려진 결론 '상자는 $Y$다'는 맞는지 틀린지 그 자체는 알 수 없지만
  • 이 방법으로 계속 추정해 나가면 불과 $10\%$의 확률이기는 하나 잘못된 결론을 내리게 된다
  • 즉, 상자가 $X$임에도 $Y$라고 결론내리는 일이 발생하는 것이다


가설검정 과정

앞에서 설명한 확률적 추론 방법은 표준 통계학에서 말하는 가설검정(假說檢定; Statistical Hypothesis Testing) 방법으로 대략적인 절차는 다음과 같다

  • 과정 $1$ : 검정하려는 가설 $X$를 세운다
    • 이 가설을 귀무가설(歸無假說; Null Hypothesis, 기호 H0) 또는 영가설(零假說)이라고 한다
    • 원래 입증하려는 내용과 반대되는 가설로 모집단에서 독립변수와 종속변수 또는 결과변수 사이에 아무런 관련이 없거나 의미가 없다는 가설
  • 과정 $2$ : 가설 $X$가 옳지 않은 경우에 결론지을 가설 $Y$를 준비한다

    • 이 가설을 대립가설(對立假說; Alternative Hypothesis, 기호 H1) 또는 연구 가설 또는 유지 가설이라고 한다
    • 원래 입증하려는 내용의 가설로 모집단에서 독립변수와 종속변수 또는 결과변수 사이에 어떤 특정한 관련이 있다는 가설

  • 과정 $3$ : 가설 $X$가 옳다는 가정하에 작은 확률 $\alpha$로 밖에 관측되지 않는 현상 $x$를 생각한다
  • 과정 $4$ : 현상 $x$가 관측되었는가를 확인한다
  • 과정 $5$ : 현상 $x$가 관측된 경우 귀무가설 $X$가 틀렸다고 판단하여 귀무가설 $X$를 기각하고 대립가설 $Y$를 채택한다
  • 과정 $6$ : 현상 $x$가 관측되지 않은 경우에는 귀무가설 $X$를 기각할 수 없기 때문에 귀무가설 $X$를 채택한다


위의 과정을 요약하면 '$X$가 옳은 경우

  • $\alpha$라는 낮은 확률로 밖에 일어나지 않는 현상이 실제로 관측되었을 때,
    • 가설 $X$가 원래 잘못된 것이라고 판단하여 가설 $X$를 포기한다
  • $\alpha$라는 낮은 확률로 밖에 일어나지 않는 현상이 관측되지 않으면
    • 가설 $X$를 포기할 이유가 없기 때문에 유지한다


여기서 가설 $X$를 기각할 것인가의 기준이 되는  확률 $\alpha$는 전문용어로 유의수준(significance level)이라고 한다

  • $\alpha$의 확률로 일어나는 현상이 관측되면 가설을 포기하게 되므로 '올바른 가설 $X$를 잘못하여 포기할' 확률이 $\alpha$이다
  • 이 방법으로 계속 추정해 나가다보면 $\alpha$의 비율로 판단을 잘못 내리게 됨을 의미한다


위의 가설검정의 과정을 앞의 예에 적용해보자

  • 귀무가설 : 상자는 $X$다
  • 대립가설 : 상자는 $Y$다
  • 유의수준 $\alpha$를 $0.1$로 설정하면 상자 $X$로부터 검은 공이 나오는 것을 관측할 확률은 $\alpha$가 된다
  • 검은 공을 관측했기 때문에 귀무가설 '상자는 $X$다'는 기각되고 대립가설 '상자는 $Y$다'를 채택하게 된다


가설검정에서는 판단을 내리지 않는 사례도 있다

  • 가설검정은 논리적 추론과 비교해봐도 거의 같은 발상에 입각한 상당히 명쾌한 방법론이다
  • 실제로 이 방법이 널리 사용되고 있는데 문제는 '유의수준 $\alpha$를 얼마로 설정할 것인가?'이다
  • 유의수준 $\alpha$는 '거의 관측되지 않을 것 같은 현상'의 확률을 뜻하기 때문에 당연히 그 값을 작게 설정해야 한다
  • 보통은 $5\%(=0.05)$ 또는 $1\%(=0.01)$로 설정한다
    • 위의 값에 대하여 과학적인 근거는 없다


  • 유의수준을 $5\%$ 또는 $1\%$로 설정하면 앞에서 설명한 확률적 추론은 가설검정의 기준과는 맞지 않는다
    • 앞에서 가설 $X$(상자는 $X$다)를 기각할 기준으로 '검은 공이 나오는 것을 관측'하는 현상을 이용하는데
    • 이 확률은 $10\%$라 유의수준 $5\%$보다 훨씬 크기 때문이다
  • 마찬가지로 가설 $Y$를 귀무가설로 해도 가설검정의 기준과는 맞지 않다
    • 이 경우 흰 공이 나오는 사건을 현상 $x$로 두어야 하지만 이것도 $20\%$의 확률이므로 유의수준과는 일치하지 않는다



연습문제

지금 상자 $X$나 $Y$ 중 어느 한쪽임을 알고 있다. 상자 $X$에는 흰 공 $96$개와 검은 공 $4$개가 들어 있다. '상자 $X$다'를 귀무가설로 자바고 '단지 $Y$다'를 대립가설로 잡는다. 이 때 상자에서 공을 한 개 꺼냇더니 검은 공이었다. 틀린 것에 줄을 그으시오.

(1) 유의수준이 $5\%(0.05)$일 때 가설검정의 결론은 기각(된다 / 되지 않는다)

(2) 유의수준이 $1\%(0.01)$일 때 가설검정의 결론은 기각(된다 / 되지 않는다)

(3) (2)번의 상황에서 꺼낸 검은 공을 단지에 다시 넣고 새로 공을 한 개 꺼냈더니 이번에도 검은 공이었다. 이때 가설검정의 결론은 기각(된다 / 되지 않는다)


출처 : 세상에서 가장 쉬운 베이트 통계학 입문

+ Recent posts