Q: 모집단의 참값을 어떻게 해야 구할 수 있을까?
A: 모집단의 참값은 알 수가 없지만 어떤 가능성 하에 참값이 존재하는 구간을 추정할 수 있다.

  • 구간추정(interval estimation): 모집단의 참값이 들어있는 신뢰구간(confidence interval)의 폭이 정해지면 구할 수 있다.
  • 이 폭은 참값이 들어있을 가능성(신뢰성 계수 또는 신뢰도(coefficient of reliability))으로 정해진다
  • 가능성: ↑ 폭: ↑

Q: 추정한 결과가 올바른지 알 수 있을까?
A: 통계적 검정(statistical test)를 통해 판단한다

 

측정값과 오차

모집단의 원소에 대한 측정값 $xi는 다음과 같은 조건에 영향을 받는다.

  • 동일한 모집단에 포함되어 있다.
  • 모집단의 원소 각각은 어떤 특성 fi을 갖는다.
  • 측정 시 오차(εi)가 발생한다.

따라서 모집단의 평균이 μ일 때 표본 i의 측정값 xi는 다음과 같다.
xi=μ+fi+εi
위 식에서 ifi=0인데 표본의 값이 평균보다 큰 것도 있고, 작은 것도 있을텐데 전체적으로 보면 이런 차이는 미미하다는 의미이다. 또한 iεi=0인데 측정을 반복하다 보면 측정오차는 점점 줄어든다는 의미이다.

다시 말하면, 모든 원소의 특성과 오차의 합계는 모두 0이 되므로 표본이 많을 수록 그 결과는 모집단에 가까워질 수 밖에 없다. 그러나 실제로는 모든 원소에 대해 측정하는 것은 불가능한 경우가 많으므로 모집단 평균의 참값 μ를 알 수가 없다.

또한, 정밀도가 높은 측정기기로 원소를 측정하더라도 측정 과정에서 발생하는 오차로 인해 원소의 참값을 얻을 수가 없다. 그러나 측정을 반복함으로서 오차를 줄일 수는 있다.

통계적 검정(statistical test): 측정을 통해 얻은 결과가 올바른지 아닌지를 판정하는 과정

 

대표값 추정

추정(estimation): 참값을 정확하게 알 수는 없지만 어느 정도인지 추측하는 것

  • 점추정(point estimation) : 가장 가능성이 높은 값 하나를 구하는 방법
  • 구간추정(interval estimation): 어느 가능성 하에 통계량이 존재하는 구간을 구하는 방법

추정을 위한 통계량을 얻은 다음, 통계량이 기존의 확률분포를 따른다는 가정하에 추정한다.

 

추정에 필요한 정보

  • 표본 수 n
  • 평균: 표본평균 x¯ 또는 모평균 μ
  • 분산: 표본분산 s2 또는 모분산 σ2

 

평균값의 신뢰구간 추정

  • 평균값 점추정 값 = 표본평균 x¯
  • 평균값 구간추정: 평균값이 들어가는 구간의 신뢰수준(confidence level) 또는 신뢰계수(confidence coefficient)가 주어지면 구할 수 있다. 당연히 신뢰수준이 높을 수록 구간의 폭은 넒어진다.

 

모집단의 분산을 아는 경우 모평균의 신뢰구간 추정

다음과 같은 통계량을 알고 있다고 가정한다.

  • 표본의 수 n
  • 표본평균 x¯
  • 모집단의 분산 σ2

표본평균 x¯는 정규분포 N(μ,σ2n)을 따르므로 표본평균 x¯을 표준화한 통계량 Z는 다음과 같다.
Z=x¯μσn
이 때 통계량 Z는 표준정규분포 N(0,1)을 따른다. 예를 들어, 신뢰계수 1α=95%(=0.95)(또는 유의수준(significance level) α=0.05) 모평균 μ가 신뢰구간 안에 있다고 하면, 표준정규분포에 따라 다음과 같이 쓸 수 있다.

Pr(1.96Z1.96)=0.95

따라서 표준정규분포에서의 신뢰계수 1α에 대응하는 표준정규분포의 값을 Z1α라고 하면 다음과 같은 식을 얻을 수 있다.

Pr(Z1α2ZZ1α2)=Pr(Z1α2x¯μσnZ1α2)=Pr(x¯Z1α2×σnμx¯+Z1α2×σn)=1α

따라서 신뢰수준 1α가 주어지면 다음과 같이 모평균의 신뢰구간을 얻을 수 있다.
x¯Z1α2×σnμx¯+Z1α2×σn
α에 따른 Zα2의 값은 표준정규분포표를 통해 알 수 있다.

 

모집단의 분산을 모르는 경우 모평균의 신뢰구간 추정

다음과 같은 통계량을 알고 있다고 가정한다.

  • 표본의 수 n

표본평균 x¯

모집단의 분산을 모를 경우에는 표본집단의 분산 s2을 사용해 추정을 해야 한다. 모집단의 분산을 아는 경우에는 표본집단이 표준정규분포를 따르겠지만, 표본집단의 분산, 즉 표본분산을 사용해 표준화한 통계량 t는 다음과 같다.
t=x¯μsn
이 때, 통계량 t는 자유도가 n1t 분포를 따른다. 따라서 신뢰수준 1α가 주어지면 다음과 같이 모평균의 신뢰구간을 얻을 수 있다.
x¯t(α2,n1)×snμx¯+t(α2,n1)×sn

위 식에서 표본의 수 n이 클 수록 구간의 폭은 줄어들지만, 표본의 크기를 100배 늘려도 구간의 폭은 10배 정도 밖에 줄어들지 않기 때문에 효과가 그리 크다고는 말할 수 없다. 또한, 데이터 수집에 많은 비용이 들기 때문에 표본의 크기를 늘리는 데는 한계가 있다. 일반적으로 표본의 수가 작은 경우(n30) 표본표준편차 s가 작아져도 구간이 폭이 줄어들기 때문에 표본의 산포를 줄일 수 있다면 보다 정확한 추정을 할 수 있다.

 

엑셀로 모평균의 구간을 추정을 해보자

모분산을 모르는 60개의 표본 데이터가 있을 때, 신뢰계수 1α=95%=0.95(유의수준 α=5%=0.05)로 모평균의 구간을 추정해보자.

x¯t(α2,n1)×snμx¯+t(α2,n1)×sn122.2666662.300047×19.89622860μ122.266666+2.300047×19.89622860116.358785μ128.174549

신뢰계수 95%로 모평균의 신뢰구간 계산하기

 

모집단 분산의 신뢰구간 추정

정규분포를 따르는 모집합의 모분산을 σ2라 할 때, 다음과 같은 통계량을 알고 있다고 가정한다.

  • 표본의 수 n
  • 표본평균 x¯
  • 표분분산 s2

이 때, 통계량
χ(n1)2=(x1x¯)2+(x2x¯)2++(xnx¯)2σ2=(n1)s2σ2

는 자유도 n1χ2-분포를 따른다고 알려져 있다. 따라서자유도 n1χ2-분포에서의 신뢰계수 1α에 대응하는 χ2-분포의 값을 χ(n1)2라고 하면 다음과 같은 식을 얻을 수 있다.

Pr(χ(n1)2χ(1α2,n1)2)=1α2Pr(χ(n1)2χ(α2,n1)2)=α2

위 식에서 아랫 식을 빼면 다음과 같다.

Pr(χ(n1)2χ(1α2,n1)2)Pr(χ(n1)2χ(α2,n1)2)=1α2α2Pr(χ(1α2,n1)2χ(n1)2χ(α2,n1)2)=1αPr(χ(1α2,n1)2(n1)s2σ2χ(α2,n1)2)=1αPr((n1)s2χ(1α2,n1)2σ2(n1)s2χ(α2,n1)2)=1α

따라서 신뢰계수 1α가 주어지면 다음과 같이 모분산의 신뢰구간을 추정할 수 있다.
(n1)s2χ(1α2,n1)2σ2(n1)2χ(α2,n1)2

 

엑셀로 모평균의 구간을 추정을 해보자

모분산을 모르는 60개의 표본 데이터가 있을 때, 신뢰계수 95% 또는 유의수준 5%로 모평균의 구간을 추정해보자.

(n1)s2χ(1α2,n1)2σ2(n1)2χ(α2,n1)2(601)19.896228242.339308σ2(601)19.896228282.117406116.358785σ2128.174549

신뢰계수 95%로 모분산의 신뢰구간 계산하기

 

자유도

표본집단의 원소가 n개 일 때, 모집단의 평균이나 분산을 모르는 경우, 표본평균이나 표본분산을 이용해 계산한 통계량은 자유도가 n1인 분포를 따른다. 이 경우 우리가 어떤 값인지는 모르지만 모평균 μ나 모분산 σ2은 이미 정해져 있는 값이다. 이 때 우리는 n개의 표본 x1,x2,,xn으로 부터 통계량을 계산해야 하는데, x1,x2,,xn1의 표본을 구한 다음에 n번째 표본 xn은 어떤 값을 뽑더라도 표본 통계량은 모평균 μ나 모분산 σ2에 가까워야 한다. 즉, 1부터 n1개까지의 표본은 자유롭게 선택할 수 있지만 n번째 표본은 모평균과 모분산에 종속된 값이 되어야 하므로 자유롭게 선택할 수 있는 자유도는 n1이 된다.

'Data Science with Excel' 카테고리의 다른 글

통계적 검정 - 가설 검정  (0) 2020.06.22

+ Recent posts