통계적 가설 검정

어떤 사건이 일어날 것으로 예상될 때, 그 사건이 일어나도 이상하지 않은지 또는 거의 일어나지 않는데 어떤 특별한 이유(배경 요인)로 인해 일어나는 사건인지 알아보고 싶은 경우에 사용하는 증명 과정이다.


귀무가설

통계적 검정을 하기 위한 전제 조건으로 먼저 가설을 설정하는 데 이 가설을 귀무가설(null hypothesis)라고 한다. 설문조사나 연구에서 증명하고자 하는 것, 예를 들어 'A와 B가 차이가 있다'는 것을 증명하기 위해 'A와 B가 차이가 없다'는 가정이 귀무가설이다. 귀무가설과 정반대되는 가설을 '대립가설'이라고 한다.

일반적으로 통계적 검증은 수학 증명 과정에서 가정을 했는데, 마지막에 가정과 모순되는 결론에 도달하면 가정이 잘못되었다는 것을 증명하는 귀류법(歸謬法, proof by contradiction)을 사용한다. 즉, 'A와 B가 차이가 없다'고 가정을 했지만, 증명을 통해 'A와 B가 차이가 있다'라는 결과를 얻어 가정에 위배되는 모순이 발생했으므로 , 'A와 B가 차이가 없다'는 가정이 잘 못 되었다. 따라서 , 'A와 B는 차이가 있어야 한다'고 결론을 내리는 과정이다. 요약하면 귀무가설을 기반으로 '일어날 가능성이 없는 사건이 발생했다'는 모순을 입증하는 과정이 바로 '통계적 검증'이다.

 


귀무가설을 기반으로 실제로 일어날 사건이 '발생할 확률'을 계산하는데 다양한 통계학 이론이 사용된다. 어떤 확률분포를 따르는 검정 통계량을 구하고, 이 통계량의 값이 사전에 정의한 유의수준보다 높다면(즉, 신뢰구간 안에 있다면) 일어날 만해서 일어난 사건이므로 처음 설정한 가설(귀무가설)이 옳다고 할 수 있다. 이를 '귀무가설이 채택되었다'고 한다. 이 경우, 우리는 실제로 대립가설이 옳지만 틀린 귀무가설을 채택하는 오류를 범할 수 있다. 이런 오류를 II종 오류(Type II-error) 또는 False Negative Rate(FNR)이라고 한다.

통계량의 확률이 사전에 정의한 유의 준보다 낮다면(즉, 신뢰구간 밖에 있다면) 일어날 가능성이 없는 사건이 일어났다는 것을 의미한다. 즉, 처음 설정한 가설(귀무가설)이 틀렸으므로 '대립가설을 채택한다'고 한다. 이 경우, 우리는 실제로 귀무가설이 옳지만 틀린 대립가설을 채택하는 오류를 범할 수 있다. 이런 오류를 I종 오류(Type I-error) 또는 False Positive Rate(FPR)이라고 한다.


예를 들어, 평균값을 \(\bar{x}\), 표본표준편차를 \(s\), 모평균을 \(\mu\), 표본 수를 \(n\)이라고 했을 경우, 표본집단의 분산, 즉 표본분산을 사용해 표준화한 통계량 \(t\)는 자유도가 \(n-1\)인 \(t\)-분포를 따른다.

$$
t = \frac{|\bar{x}-\mu|}{\frac{s}{\sqrt{n}}}
$$

따라서 통계량 \(t\)가 유의수준 \(\alpha\)에 대하여 \(t\)-분포의 신뢰구간 \(t_{(-\frac{\alpha}{2},n-1)}\)과 \(t_{(\frac{\alpha}{2},n-1)}\) 사이에 있으면 귀무가설을 채택하고, 신뢰구간 밖에 있으면 귀무가설을 기각하고 대립가설을 채택하면 된다.

  • 다음의 경우 귀무가설 \(H_0\) 채택

$$t_{(-\frac{\alpha}{2},n-1)}\leqq t \leqq t_{(\frac{\alpha}{2},n-1)}$$

  • 다음의 경우 귀무가설 \(H_0\)을 기각하고, 대립가설 \(H_1\)을 채택

$$t\leqq t_{(-\frac{\alpha}{2},n-1)} ~~\textrm{또는}~~ t_{(\frac{\alpha}{2},n-1)}\leqq t$$


유의수준

통계적 검정에서 '판단의 기준'인 동시에 '판단을 실수할 가능성' \(\alpha\)를 의미한다. 통상적으로 \(5%(=0.05)\)를 사용하지만, 엄격한 기준이 필요한 경우에는 \(1%\)나 \(0.1%\)를 사용하기도 한다.

신뢰구간

구간 추정(interval estimation)은 구간의 상계와 하계를 정해서 통계량이 존재하는 범위, 즉 구간을 알아내는 방법이다. 이 때 하계를 좌측 신뢰 구간 한계, 상계를 우측 신뢰구간 한계라고 한다. 하계와 상계를 구하기 위한 존재 확률 \(1-\alpha\)을 신뢰 계수(confidence coefficient) 라고 한다.


그림 출처: [https://rfriend.tistory.com/113]


엑셀로 통계적 검증 해보기

환자 60명의 수축기 혈압 평균값이 \(122.2666\textrm{mmHg}\)이고, 표본표준편차가 \(19.8962\textrm{mmHg}\)일 때, 모평균의 값이 \(120\textrm{mmHg}\)일까? 또는 \(130\textrm{mmHg}\)일 가능성도 있을까? 유의수준 \(5%\)로 검정을 해보자.

먼저 귀무가설과 대립가설을 설정한다.

모평균 \(\mu=120\textrm{mmHg}\)인 경우 다음과 같다.

  • 귀무가설 \(H_0\): \(\mu =120\textrm{mmHg}\)이다.
  • 대립가설 \(H_1\): \(\mu \neq 120\textrm{mmHg}\)이다.

표본평균값이 \(122.2666\textrm{mmHg}\)이고, 표본표준편차가 \(19.8962\textrm{mmHg}\), 모평균이 가정에 따라 \(120\textrm{mmHg}\), 표본 수가 \(60\)일 때, 통계량 \(t\)의 값은 다음과 같다.

$$
\begin{aligned}
t &= \frac{|\bar{x}-\mu|}{\frac{s}{\sqrt{n}}}\\ &=\frac{|122.2666-120|}{\frac{19.8962}{\sqrt{60}}}\\
&\approx 0.8825
\end{aligned}
$$

표본 수가 \(60\)이고, 유의수준 \(\alpha\)가 \(5%\)인 \(t\)-분포 \(t_{(\frac{\alpha}{2},n-1)}\)는 다음과 같다.

$$
\begin{aligned}
t_{(\frac{\alpha}{2},n-1)} &=t_{(\frac{0.05}{2},60-1)}\\&=t_{(0.025,59)}\\&\approx 2.3005
\end{aligned}
$$

 

 

따라서, \(t(\approx 0.8825)\ll t_{(\frac{\alpha}{2},n-1)}(\approx 2.3005)\)이므로 '모평균이 \(120\textrm{mmHg}\)이다'라는귀무가설을 채택할 수 있다. 이 때 귀무가설이 틀리고, 대립가설이 옳을 오류는 \(5\%\)이다.

두 번째 경우를 살펴보자.

먼저 귀무가설과 대립가설을 설정한다.

모평균 \(\mu=130\textrm{mmHg}\)인 경우 다음과 같다.

  • 귀무가설 \(H_0\): \(\mu =130\textrm{mmHg}\)이다.
  • 대립가설 \(H_1\): \(\mu \neq 130\textrm{mmHg}\)이다.

모평균이 \(130\textrm{mmHg}\)이고, 표본 수가 \(60\)일 때, 통계량 \(t\)의 값은 다음과 같다.

$$
\begin{aligned}
t &= \frac{|\bar{x}-\mu|}{\frac{s}{\sqrt{n}}}\\ &=\frac{|122.2666-130|}{\frac{19.8962}{\sqrt{60}}}\\
&\approx 3.0107
\end{aligned}
$$

따라서, \(t(\approx 3.0107)> t_{(\frac{\alpha}{2},n-1)}(\approx 2.3005)\)이므로, '모평균이 \(130\textrm{mmHg}\)이다'라는 귀무가설을 기각하고, '모평균이 \(130\textrm{mmHg}\)아니다'라는 대립가설을 채택할 수 있다. 이 때 귀무가설이 옳지만 대립가설을 선택하는 오류는 \(5\%\)이다.

즉, 이 검정의 결론은 모평균은 \(120\textrm{mmHg}\)일 수는 있지만 \(130\textrm{mmHg}\)은 될 수 없다는 것이다.

+ Recent posts