통계학에서의 표본분포 sampling distribution in statistics
- 표본분포(sampling distribution): 하나의 모집단에서 얻은 동일한 여러 표본에 대한 표본통계량의 분포, 즉 표본통계량의 도수분포
- 표본통계량(sample statistic): 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표
- 데이터 분포(data distribution): 어떤 데이터 집합에서의 각 개별 값에 대한 도수분포
- 중심극한정리(central limit theorem): 표본크기가 커질 수록 표본분포가 정규분포를 따른다는 이론
- 표준오차(standard error): 여러 표본들로부터 얻은 표본통계량의 변량(variability)
- 표준편차: 개별 데이터 값들의 변량
표본분포
- 어떤 것을 측정하거나 모델을 만들기 위해 표본을 추출
- 표본을 통해 추정이나 모델을 만들기 때문에 오류가 발생할 수 밖에 없음
- 표본을 뽑을 때마다 결과가 달라질 것이기에 얼마나 달라지는지에 관심이 갈 수 밖에 없다
- 표본의 변동성(sampling variability)이 우리의 관심사
- 많은 양의 데이터가 있는 경우 다양한 표본을 얻어 통계량의 분포 확인 가능
- 평균과 같은 표본통계량의 분포는 데이터 자체의 분포보다 규칙적이고 종 모양일 가능성이 높다
- 통계의 기반이 되는 표본이 많아질 수록 종 모양이 될 가능성이 높아진다
- 표본이 많아질 수록 표본통계량의 분포가 좁아진다
Lending Club 대출신청자의 연간 소득 정보 데이터
- 단순히 1,000개의 데이터 표본
- 5개 값의 평균 1,000개로 구성된 표본
- 20개 값의 평균 1,000개로 구성된 표본
- 위 3개 표본에 대한 히스토그램
중심극한정리
- 중심극한정리(CTL, Central Limit Theorem): 동일한 확률분포를 가진 독립 확률변수 \(n\)개의 평균의 분포는 \(n\)이 적당히 크다면 정규분포에 가까워진다
- 대출자의 연간소득 정보와 같이 모집단이 정규분포가 아니더라도, 표본의 크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종 모양의 정규분포를 따르게 된다
- 중심극한정리로 인하여 추론을 위한 신뢰구간이나 가설검정 계산에 정규근사 분포를 사용할 수 있다
'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글
부트스트랩 (0) | 2019.09.17 |
---|---|
표준오차 (0) | 2019.09.17 |
표본추출의 중요성 (0) | 2019.09.04 |
상관분석 Correlation Analysis (0) | 2019.09.03 |
데이터 분포 탐색하기 (0) | 2019.09.03 |