통계학에서의 표본분포 sampling distribution in statistics

  • 표본분포(sampling distribution): 하나의 모집단에서 얻은 동일한 여러 표본에 대한 표본통계량의 분포, 즉 표본통계량의 도수분포
  • 표본통계량(sample statistic): 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표
  • 데이터 분포(data distribution): 어떤 데이터 집합에서의 각 개별 값에 대한 도수분포
  • 중심극한정리(central limit theorem): 표본크기가 커질 수록 표본분포가 정규분포를 따른다는 이론
  • 표준오차(standard error): 여러 표본들로부터 얻은 표본통계량의 변량(variability)
    • 표준편차: 개별 데이터 값들의 변량


표본분포

  • 어떤 것을 측정하거나 모델을 만들기 위해 표본을 추출
  • 표본을 통해 추정이나 모델을 만들기 때문에 오류가 발생할 수 밖에 없음
  • 표본을 뽑을 때마다 결과가 달라질 것이기에 얼마나 달라지는지에 관심이 갈 수 밖에 없다
    • 표본의 변동성(sampling variability)이 우리의 관심사
    • 많은 양의 데이터가 있는 경우 다양한 표본을 얻어 통계량의 분포 확인 가능
  • 평균과 같은 표본통계량의 분포는 데이터 자체의 분포보다 규칙적이고 종 모양일 가능성이 높다
    • 통계의 기반이 되는 표본이 많아질 수록 종 모양이 될 가능성이 높아진다
    • 표본이 많아질 수록 표본통계량의 분포가 좁아진다

Lending Club 대출신청자의 연간 소득 정보 데이터

  • 단순히 1,000개의 데이터 표본
  • 5개 값의 평균 1,000개로 구성된 표본
  • 20개 값의 평균 1,000개로 구성된 표본
  • 위 3개 표본에 대한 히스토그램

 중심극한정리

  • 중심극한정리(CTL, Central Limit Theorem): 동일한 확률분포를 가진 독립 확률변수 \(n\)개의 평균의 분포는 \(n\)이 적당히 크다면 정규분포에 가까워진다
    • 대출자의 연간소득 정보와 같이 모집단이 정규분포가 아니더라도, 표본의 크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종 모양의 정규분포를 따르게 된다
    • 중심극한정리로 인하여 추론을 위한 신뢰구간이나 가설검정 계산에 정규근사 분포를 사용할 수 있다


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

부트스트랩  (0) 2019.09.17
표준오차  (0) 2019.09.17
표본추출의 중요성  (0) 2019.09.04
상관분석 Correlation Analysis  (0) 2019.09.03
데이터 분포 탐색하기  (0) 2019.09.03

+ Recent posts