Q: 모집단의 참값을 어떻게 해야 구할 수 있을까?
A: 모집단의 참값은 알 수가 없지만 어떤 가능성 하에 참값이 존재하는 구간을 추정할 수 있다.

  • 구간추정(interval estimation): 모집단의 참값이 들어있는 신뢰구간(confidence interval)의 폭이 정해지면 구할 수 있다.
  • 이 폭은 참값이 들어있을 가능성(신뢰성 계수 또는 신뢰도(coefficient of reliability))으로 정해진다
  • 가능성: ↑ 폭: ↑

Q: 추정한 결과가 올바른지 알 수 있을까?
A: 통계적 검정(statistical test)를 통해 판단한다

 

측정값과 오차

모집단의 원소에 대한 측정값 \($x_i\)는 다음과 같은 조건에 영향을 받는다.

  • 동일한 모집단에 포함되어 있다.
  • 모집단의 원소 각각은 어떤 특성 \(f_i\)을 갖는다.
  • 측정 시 오차(\(\varepsilon_i\))가 발생한다.

따라서 모집단의 평균이 \(\mu\)일 때 표본 \(i\)의 측정값 \(x_i\)는 다음과 같다.
$$
x_i = \mu + f_i + \varepsilon_i
$$
위 식에서 \(\sum_if_i=0\)인데 표본의 값이 평균보다 큰 것도 있고, 작은 것도 있을텐데 전체적으로 보면 이런 차이는 미미하다는 의미이다. 또한 \(\sum_i\varepsilon_i=0\)인데 측정을 반복하다 보면 측정오차는 점점 줄어든다는 의미이다.

다시 말하면, 모든 원소의 특성과 오차의 합계는 모두 \(0\)이 되므로 표본이 많을 수록 그 결과는 모집단에 가까워질 수 밖에 없다. 그러나 실제로는 모든 원소에 대해 측정하는 것은 불가능한 경우가 많으므로 모집단 평균의 참값 \(\mu\)를 알 수가 없다.

또한, 정밀도가 높은 측정기기로 원소를 측정하더라도 측정 과정에서 발생하는 오차로 인해 원소의 참값을 얻을 수가 없다. 그러나 측정을 반복함으로서 오차를 줄일 수는 있다.

통계적 검정(statistical test): 측정을 통해 얻은 결과가 올바른지 아닌지를 판정하는 과정

 

대표값 추정

추정(estimation): 참값을 정확하게 알 수는 없지만 어느 정도인지 추측하는 것

  • 점추정(point estimation) : 가장 가능성이 높은 값 하나를 구하는 방법
  • 구간추정(interval estimation): 어느 가능성 하에 통계량이 존재하는 구간을 구하는 방법

추정을 위한 통계량을 얻은 다음, 통계량이 기존의 확률분포를 따른다는 가정하에 추정한다.

 

추정에 필요한 정보

  • 표본 수 \(n\)
  • 평균: 표본평균 \(\bar{x}\) 또는 모평균 \(\mu\)
  • 분산: 표본분산 \(s^2\) 또는 모분산 \(\sigma^2\)

 

평균값의 신뢰구간 추정

  • 평균값 점추정 값 = 표본평균 \(\bar{x}\)
  • 평균값 구간추정: 평균값이 들어가는 구간의 신뢰수준(confidence level) 또는 신뢰계수(confidence coefficient)가 주어지면 구할 수 있다. 당연히 신뢰수준이 높을 수록 구간의 폭은 넒어진다.

 

모집단의 분산을 아는 경우 모평균의 신뢰구간 추정

다음과 같은 통계량을 알고 있다고 가정한다.

  • 표본의 수 \(n\)
  • 표본평균 \(\bar{x}\)
  • 모집단의 분산 \(\sigma^2\)

표본평균 \(\bar{x}\)는 정규분포 \(N\left(\mu,\frac{\sigma^2}{n}\right)\)을 따르므로 표본평균 \(\bar{x}\)을 표준화한 통계량 \(Z\)는 다음과 같다.
$$
Z=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}
$$
이 때 통계량 \(Z\)는 표준정규분포 \(N(0,1)\)을 따른다. 예를 들어, 신뢰계수 \(1-\alpha=95\%(=0.95)\)(또는 유의수준(significance level) \(\alpha=0.05\)) 모평균 \(\mu\)가 신뢰구간 안에 있다고 하면, 표준정규분포에 따라 다음과 같이 쓸 수 있다.

$$
\textbf{Pr}(-1.96\leqslant Z \leqslant 1.96) = 0.95
$$

따라서 표준정규분포에서의 신뢰계수 \(1-\alpha\)에 대응하는 표준정규분포의 값을 \(Z_{1-\alpha}\)라고 하면 다음과 같은 식을 얻을 수 있다.

$$\begin{aligned}\textbf{Pr}\Big(-Z_{1-\frac{\alpha}{2}} \leqslant Z \leqslant Z_{1-\frac{\alpha}{2}}\Big) &=
\textbf{Pr}\bigg(-Z_{1-\frac{\alpha}{2}} \leqslant \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}} \leqslant Z_{1-\frac{\alpha}{2}}\bigg)\\
&=\textbf{Pr}\Bigg(\bar{x}-Z_{1-\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \bar{x} + Z_{1-\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}\Bigg)\\
&= 1-\alpha \end{aligned}$$

따라서 신뢰수준 \(1-\alpha\)가 주어지면 다음과 같이 모평균의 신뢰구간을 얻을 수 있다.
$$
\bar{x}-Z_{1-\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \bar{x} + Z_{1-\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}
$$
\(\alpha\)에 따른 \(Z_{\frac{\alpha}{2}}\)의 값은 표준정규분포표를 통해 알 수 있다.

 

모집단의 분산을 모르는 경우 모평균의 신뢰구간 추정

다음과 같은 통계량을 알고 있다고 가정한다.

  • 표본의 수 \(n\)

표본평균 \(\bar{x}\)

모집단의 분산을 모를 경우에는 표본집단의 분산 \(s^2\)을 사용해 추정을 해야 한다. 모집단의 분산을 아는 경우에는 표본집단이 표준정규분포를 따르겠지만, 표본집단의 분산, 즉 표본분산을 사용해 표준화한 통계량 \(t\)는 다음과 같다.
$$
t = \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}
$$
이 때, 통계량 \(t\)는 자유도가 \(n-1\)인 \(t\) 분포를 따른다. 따라서 신뢰수준 \(1-\alpha\)가 주어지면 다음과 같이 모평균의 신뢰구간을 얻을 수 있다.
$$
\bar{x} - t_{\left(\frac{\alpha}{2}, n-1\right)} \times \frac{s}{\sqrt{n}}\leqslant \mu \leqslant\bar{x} + t_{\left(\frac{\alpha}{2}, n-1\right)} \times \frac{s}{\sqrt{n}}
$$

위 식에서 표본의 수 \(n\)이 클 수록 구간의 폭은 줄어들지만, 표본의 크기를 \(100\)배 늘려도 구간의 폭은 \(10\)배 정도 밖에 줄어들지 않기 때문에 효과가 그리 크다고는 말할 수 없다. 또한, 데이터 수집에 많은 비용이 들기 때문에 표본의 크기를 늘리는 데는 한계가 있다. 일반적으로 표본의 수가 작은 경우\(\left(n\lessapprox 30\right)\) 표본표준편차 \(s\)가 작아져도 구간이 폭이 줄어들기 때문에 표본의 산포를 줄일 수 있다면 보다 정확한 추정을 할 수 있다.

 

엑셀로 모평균의 구간을 추정을 해보자

모분산을 모르는 60개의 표본 데이터가 있을 때, 신뢰계수 \(1-\alpha=95\%=0.95\)(유의수준 \(\alpha=5\%=0.05\))로 모평균의 구간을 추정해보자.

$$\begin{aligned}\bar{x} - t_{(\frac{\alpha}{2}, n-1)} \times \frac{s}{\sqrt{n}} &\leqq \mu \leqq\bar{x} + t_{(\frac{\alpha}{2}, n-1)} \times \frac{s}{\sqrt{n}}\\
122.266666 - 2.300047 \times \frac{19.896228}{\sqrt{60}} &\leqq \mu \leqq 122.266666+2.300047\times \frac{19.896228}{\sqrt{60}}\\
116.358785 &\leqq \mu \leqq 128.174549\end{aligned}$$

신뢰계수 95%로 모평균의 신뢰구간 계산하기

 

모집단 분산의 신뢰구간 추정

정규분포를 따르는 모집합의 모분산을 \(\sigma^2\)라 할 때, 다음과 같은 통계량을 알고 있다고 가정한다.

  • 표본의 수 \(n\)
  • 표본평균 \(\bar{x}\)
  • 표분분산 \(s^2\)

이 때, 통계량
\[\begin{aligned}\chi^2_{(n-1)} &= \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{\sigma^2}\\
& = \frac{(n-1)s^2}{\sigma^2}\end{aligned}\]

는 자유도 \(n-1\)인 \(\chi^2\)-분포를 따른다고 알려져 있다. 따라서자유도 \(n-1\)인 \(\chi^2\)-분포에서의 신뢰계수 \(1-\alpha\)에 대응하는 \(\chi^2\)-분포의 값을 \(\chi^2_{(n-1)}\)라고 하면 다음과 같은 식을 얻을 수 있다.

\[
\begin{aligned}
\textbf{Pr}\left(\chi^2_{(n-1)} \geqq \chi^2_{\left(1-\frac{\alpha}{2},n-1\right)}\right) &= 1-\frac{\alpha}{2}\\
\textbf{Pr}\left(\chi^2_{(n-1)} \geqq \chi^2_{\left(\frac{\alpha}{2},n-1\right)}\right) &= \frac{\alpha}{2}
\end{aligned}
\]

위 식에서 아랫 식을 빼면 다음과 같다.

$$
\begin{aligned}
\textbf{Pr}\left(\chi^2_{(n-1)} \geqq \chi^2_{\left(1-\frac{\alpha}{2},n-1\right)}\right) - \textbf{Pr}\left(\chi^2_{(n-1)} \geqq \chi^2_{(\frac{\alpha}{2},n-1)}\right) &= 1-\frac{\alpha}{2} - \frac{\alpha}{2}\\
\textbf{Pr}\left(\chi^2_{(1-\frac{\alpha}{2},n-1)} \leqq \chi^2_{(n-1)} \leqq \chi^2_{(\frac{\alpha}{2},n-1)}\right) &= 1-\alpha \\
\textbf{Pr}\left(\chi^2_{(1-\frac{\alpha}{2},n-1)} \leqq \frac{(n-1)s^2} {\sigma^2} \leqq \chi^2_{(\frac{\alpha}{2},n-1)}\right) &= 1-\alpha\\
\textbf{Pr}\left(\frac{(n-1)s^2}{\chi^2_{(1-\frac{\alpha}{2},n-1)}} \leqq \sigma^2 \leqq \frac{(n-1)s^2}{\chi^2_{(\frac{\alpha}{2},n-1)}} \right) &= 1-\alpha
\end{aligned}
$$

따라서 신뢰계수 \(1-\alpha\)가 주어지면 다음과 같이 모분산의 신뢰구간을 추정할 수 있다.
$$\begin{aligned}
\frac{(n-1)s^2}{\chi^2_{(1-\frac{\alpha}{2},n-1)}} \leqq \sigma^2 \leqq \frac{(n-1)^2}{\chi^2_{(\frac{\alpha}{2},n-1)}}\\\end{aligned}
$$

 

엑셀로 모평균의 구간을 추정을 해보자

모분산을 모르는 60개의 표본 데이터가 있을 때, 신뢰계수 \(95\%\) 또는 유의수준 \(5\%\)로 모평균의 구간을 추정해보자.

$$\begin{aligned}\frac{(n-1)s^2}{\chi^2_{(1-\frac{\alpha}{2},n-1)}} &\leqq \sigma^2 \leqq \frac{(n-1)^2}{\chi^2_{(\frac{\alpha}{2},n-1)}}\\ \frac{(60-1)\cdot{19.896228}^2}{42.339308} &\leqq \sigma^2 \leqq \frac{(60-1)\cdot{19.896228}^2}{82.117406}\\ 116.358785 &\leqq\sigma^2\leqq128.174549\end{aligned}$$

신뢰계수 95%로 모분산의 신뢰구간 계산하기

 

자유도

표본집단의 원소가 \(n\)개 일 때, 모집단의 평균이나 분산을 모르는 경우, 표본평균이나 표본분산을 이용해 계산한 통계량은 자유도가 \(n-1\)인 분포를 따른다. 이 경우 우리가 어떤 값인지는 모르지만 모평균 \(\mu\)나 모분산 \(\sigma^2\)은 이미 정해져 있는 값이다. 이 때 우리는 \(n\)개의 표본 \(x_1, x_2, \ldots, x_n\)으로 부터 통계량을 계산해야 하는데, \(x_1, x_2, \ldots, x_{n-1}\)의 표본을 구한 다음에 \(n\)번째 표본 \(x_n\)은 어떤 값을 뽑더라도 표본 통계량은 모평균 \(\mu\)나 모분산 \(\sigma^2\)에 가까워야 한다. 즉, \(1\)부터 \(n-1\)개까지의 표본은 자유롭게 선택할 수 있지만 \(n\)번째 표본은 모평균과 모분산에 종속된 값이 되어야 하므로 자유롭게 선택할 수 있는 자유도는 \(n-1\)이 된다.

'Data Science with Excel' 카테고리의 다른 글

통계적 검정 - 가설 검정  (0) 2020.06.22

+ Recent posts