통계적 검정(Statistical Test) - 모평균 구간 추정

2020. 6. 18. 11:16

Q: 모집단의 참값을 어떻게 해야 구할 수 있을까?
A: 모집단의 참값은 알 수가 없지만 어떤 가능성 하에 참값이 존재하는 구간을 추정할 수 있다.

구간추정(interval estimation): 모집단의 참값이 들어있는 신뢰구간(confidence interval)의 폭이 정해지면 구할 수 있다.
이 폭은 참값이 들어있을 가능성(신뢰성 계수 또는 신뢰도(coefficient of reliability))으로 정해진다
가능성: ↑ 폭: ↑

Q: 추정한 결과가 올바른지 알 수 있을까?
A: 통계적 검정(statistical test)를 통해 판단한다

측정값과 오차

모집단의 원소에 대한 측정값 $$ x_{i}$ 는 다음과 같은 조건에 영향을 받는다.

동일한 모집단에 포함되어 있다.
모집단의 원소 각각은 어떤 특성 $f_{i}$ 을 갖는다.
측정 시 오차( $ε_{i}$ )가 발생한다.

따라서 모집단의 평균이 $μ$ 일 때 표본 $i$ 의 측정값 $x_{i}$ 는 다음과 같다.
$x_{i} = μ + f_{i} + ε_{i}$
위 식에서 $\sum_{i} f_{i} = 0$ 인데 표본의 값이 평균보다 큰 것도 있고, 작은 것도 있을텐데 전체적으로 보면 이런 차이는 미미하다는 의미이다. 또한 $\sum_{i} ε_{i} = 0$ 인데 측정을 반복하다 보면 측정오차는 점점 줄어든다는 의미이다.

다시 말하면, 모든 원소의 특성과 오차의 합계는 모두 $0$ 이 되므로 표본이 많을 수록 그 결과는 모집단에 가까워질 수 밖에 없다. 그러나 실제로는 모든 원소에 대해 측정하는 것은 불가능한 경우가 많으므로 모집단 평균의 참값 $μ$ 를 알 수가 없다.

또한, 정밀도가 높은 측정기기로 원소를 측정하더라도 측정 과정에서 발생하는 오차로 인해 원소의 참값을 얻을 수가 없다. 그러나 측정을 반복함으로서 오차를 줄일 수는 있다.

통계적 검정(statistical test): 측정을 통해 얻은 결과가 올바른지 아닌지를 판정하는 과정

대표값 추정

추정(estimation): 참값을 정확하게 알 수는 없지만 어느 정도인지 추측하는 것

점추정(point estimation) : 가장 가능성이 높은 값 하나를 구하는 방법
구간추정(interval estimation): 어느 가능성 하에 통계량이 존재하는 구간을 구하는 방법

추정을 위한 통계량을 얻은 다음, 통계량이 기존의 확률분포를 따른다는 가정하에 추정한다.

추정에 필요한 정보

표본 수 $n$
평균: 표본평균 $\bar{x}$ 또는 모평균 $μ$
분산: 표본분산 $s^{2}$ 또는 모분산 $σ^{2}$

평균값의 신뢰구간 추정

평균값 점추정 값 = 표본평균 $\bar{x}$
평균값 구간추정: 평균값이 들어가는 구간의 신뢰수준(confidence level) 또는 신뢰계수(confidence coefficient)가 주어지면 구할 수 있다. 당연히 신뢰수준이 높을 수록 구간의 폭은 넒어진다.

모집단의 분산을 아는 경우 모평균의 신뢰구간 추정

다음과 같은 통계량을 알고 있다고 가정한다.

표본의 수 $n$
표본평균 $\bar{x}$
모집단의 분산 $σ^{2}$

표본평균 $\bar{x}$ 는 정규분포 $N (μ, \frac{σ^{2}}{n})$ 을 따르므로 표본평균 $\bar{x}$ 을 표준화한 통계량 $Z$ 는 다음과 같다.
$Z = \frac{\bar{x} - μ}{\frac{σ}{\sqrt{n}}}$
이 때 통계량 $Z$ 는 표준정규분포 $N (0, 1)$ 을 따른다. 예를 들어, 신뢰계수 $1 - α = 95 % (= 0.95)$ (또는 유의수준(significance level) $α = 0.05$ ) 모평균 $μ$ 가 신뢰구간 안에 있다고 하면, 표준정규분포에 따라 다음과 같이 쓸 수 있다.

$Pr (- 1.96 ⩽ Z ⩽ 1.96) = 0.95$

따라서 표준정규분포에서의 신뢰계수 $1 - α$ 에 대응하는 표준정규분포의 값을 $Z_{1 - α}$ 라고 하면 다음과 같은 식을 얻을 수 있다.

$\begin{aligned} Pr (- Z_{1 - \frac{α}{2}} ⩽ Z ⩽ Z_{1 - \frac{α}{2}}) & = Pr (- Z_{1 - \frac{α}{2}} ⩽ \frac{\bar{x} - μ}{\frac{σ}{\sqrt{n}}} ⩽ Z_{1 - \frac{α}{2}}) \\ = Pr (\bar{x} - Z_{1 - \frac{α}{2}} \times \frac{σ}{\sqrt{n}} ⩽ μ ⩽ \bar{x} + Z_{1 - \frac{α}{2}} \times \frac{σ}{\sqrt{n}}) \\ = 1 - α \end{aligned}$

따라서 신뢰수준 $1 - α$ 가 주어지면 다음과 같이 모평균의 신뢰구간을 얻을 수 있다.
$\bar{x} - Z_{1 - \frac{α}{2}} \times \frac{σ}{\sqrt{n}} ⩽ μ ⩽ \bar{x} + Z_{1 - \frac{α}{2}} \times \frac{σ}{\sqrt{n}}$
$α$ 에 따른 $Z_{\frac{α}{2}}$ 의 값은 표준정규분포표를 통해 알 수 있다.

모집단의 분산을 모르는 경우 모평균의 신뢰구간 추정

다음과 같은 통계량을 알고 있다고 가정한다.

표본의 수 $n$

표본평균 $\bar{x}$

모집단의 분산을 모를 경우에는 표본집단의 분산 $s^{2}$ 을 사용해 추정을 해야 한다. 모집단의 분산을 아는 경우에는 표본집단이 표준정규분포를 따르겠지만, 표본집단의 분산, 즉 표본분산을 사용해 표준화한 통계량 $t$ 는 다음과 같다.
$t = \frac{\bar{x} - μ}{\frac{s}{\sqrt{n}}}$
이 때, 통계량 $t$ 는 자유도가 $n - 1$ 인 $t$ 분포를 따른다. 따라서 신뢰수준 $1 - α$ 가 주어지면 다음과 같이 모평균의 신뢰구간을 얻을 수 있다.
$\bar{x} - t_{(\frac{α}{2}, n - 1)} \times \frac{s}{\sqrt{n}} ⩽ μ ⩽ \bar{x} + t_{(\frac{α}{2}, n - 1)} \times \frac{s}{\sqrt{n}}$

위 식에서 표본의 수 $n$ 이 클 수록 구간의 폭은 줄어들지만, 표본의 크기를 $100$ 배 늘려도 구간의 폭은 $10$ 배 정도 밖에 줄어들지 않기 때문에 효과가 그리 크다고는 말할 수 없다. 또한, 데이터 수집에 많은 비용이 들기 때문에 표본의 크기를 늘리는 데는 한계가 있다. 일반적으로 표본의 수가 작은 경우 $(n ⪅ 30)$ 표본표준편차 $s$ 가 작아져도 구간이 폭이 줄어들기 때문에 표본의 산포를 줄일 수 있다면 보다 정확한 추정을 할 수 있다.

엑셀로 모평균의 구간을 추정을 해보자

모분산을 모르는 60개의 표본 데이터가 있을 때, 신뢰계수 $1 - α = 95 % = 0.95$ (유의수준 $α = 5 % = 0.05$ )로 모평균의 구간을 추정해보자.

$\begin{aligned} \bar{x} - t_{(\frac{α}{2}, n - 1)} \times \frac{s}{\sqrt{n}} & ≦ μ ≦ \bar{x} + t_{(\frac{α}{2}, n - 1)} \times \frac{s}{\sqrt{n}} \\ 122.266666 - 2.300047 \times \frac{19.896228}{\sqrt{60}} & ≦ μ ≦ 122.266666 + 2.300047 \times \frac{19.896228}{\sqrt{60}} \\ 116.358785 & ≦ μ ≦ 128.174549 \end{aligned}$

모집단 분산의 신뢰구간 추정

정규분포를 따르는 모집합의 모분산을 $σ^{2}$ 라 할 때, 다음과 같은 통계량을 알고 있다고 가정한다.

표본의 수 $n$
표본평균 $\bar{x}$
표분분산 $s^{2}$

이 때, 통계량
$\begin{aligned} χ_{(n - 1)}^{2} & = \frac{(x_{1} - \bar{x})^{2} + (x_{2} - \bar{x})^{2} + \dots + (x_{n} - \bar{x})^{2}}{σ^{2}} \\ = \frac{(n - 1) s^{2}}{σ^{2}} \end{aligned}$

는 자유도 $n - 1$ 인 $χ^{2}$ -분포를 따른다고 알려져 있다. 따라서자유도 $n - 1$ 인 $χ^{2}$ -분포에서의 신뢰계수 $1 - α$ 에 대응하는 $χ^{2}$ -분포의 값을 $χ_{(n - 1)}^{2}$ 라고 하면 다음과 같은 식을 얻을 수 있다.

$\begin{aligned} Pr (χ_{(n - 1)}^{2} ≧ χ_{(1 - \frac{α}{2}, n - 1)}^{2}) & = 1 - \frac{α}{2} \\ Pr (χ_{(n - 1)}^{2} ≧ χ_{(\frac{α}{2}, n - 1)}^{2}) & = \frac{α}{2} \end{aligned}$

위 식에서 아랫 식을 빼면 다음과 같다.

$\begin{aligned} Pr (χ_{(n - 1)}^{2} ≧ χ_{(1 - \frac{α}{2}, n - 1)}^{2}) - Pr (χ_{(n - 1)}^{2} ≧ χ_{(\frac{α}{2}, n - 1)}^{2}) & = 1 - \frac{α}{2} - \frac{α}{2} \\ Pr (χ_{(1 - \frac{α}{2}, n - 1)}^{2} ≦ χ_{(n - 1)}^{2} ≦ χ_{(\frac{α}{2}, n - 1)}^{2}) & = 1 - α \\ Pr (χ_{(1 - \frac{α}{2}, n - 1)}^{2} ≦ \frac{(n - 1) s^{2}}{σ^{2}} ≦ χ_{(\frac{α}{2}, n - 1)}^{2}) & = 1 - α \\ Pr (\frac{(n - 1) s^{2}}{χ_{(1 - \frac{α}{2}, n - 1)}^{2}} ≦ σ^{2} ≦ \frac{(n - 1) s^{2}}{χ_{(\frac{α}{2}, n - 1)}^{2}}) & = 1 - α \end{aligned}$

따라서 신뢰계수 $1 - α$ 가 주어지면 다음과 같이 모분산의 신뢰구간을 추정할 수 있다.
$\begin{array}{r} \frac{(n - 1) s^{2}}{χ_{(1 - \frac{α}{2}, n - 1)}^{2}} ≦ σ^{2} ≦ \frac{(n - 1)^{2}}{χ_{(\frac{α}{2}, n - 1)}^{2}} \end{array}$

엑셀로 모평균의 구간을 추정을 해보자

모분산을 모르는 60개의 표본 데이터가 있을 때, 신뢰계수 $95 %$ 또는 유의수준 $5 %$ 로 모평균의 구간을 추정해보자.

$\begin{aligned} \frac{(n - 1) s^{2}}{χ_{(1 - \frac{α}{2}, n - 1)}^{2}} & ≦ σ^{2} ≦ \frac{(n - 1)^{2}}{χ_{(\frac{α}{2}, n - 1)}^{2}} \\ \frac{(60 - 1) \cdot {19.896228}^{2}}{42.339308} & ≦ σ^{2} ≦ \frac{(60 - 1) \cdot {19.896228}^{2}}{82.117406} \\ 116.358785 & ≦ σ^{2} ≦ 128.174549 \end{aligned}$

자유도

표본집단의 원소가 $n$ 개 일 때, 모집단의 평균이나 분산을 모르는 경우, 표본평균이나 표본분산을 이용해 계산한 통계량은 자유도가 $n - 1$ 인 분포를 따른다. 이 경우 우리가 어떤 값인지는 모르지만 모평균 $μ$ 나 모분산 $σ^{2}$ 은 이미 정해져 있는 값이다. 이 때 우리는 $n$ 개의 표본 $x_{1}, x_{2}, \dots, x_{n}$ 으로 부터 통계량을 계산해야 하는데, $x_{1}, x_{2}, \dots, x_{n - 1}$ 의 표본을 구한 다음에 $n$ 번째 표본 $x_{n}$ 은 어떤 값을 뽑더라도 표본 통계량은 모평균 $μ$ 나 모분산 $σ^{2}$ 에 가까워야 한다. 즉, $1$ 부터 $n - 1$ 개까지의 표본은 자유롭게 선택할 수 있지만 $n$ 번째 표본은 모평균과 모분산에 종속된 값이 되어야 하므로 자유롭게 선택할 수 있는 자유도는 $n - 1$ 이 된다.

저작자표시

'Data Science with Excel' 카테고리의 다른 글

통계적 검정 - 가설 검정 (0)	2020.06.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Machine Learning with Python