부트스트랩

  • 부트스트랩(bootstrap)은
    • 통계량이나 모델 매개변수(모수)의 표본분포를 추정하기 위해
    • 현재 있는 표본에서 추가적으로 표본을 복원추출하고
    • 각 표본의 통계량과 모델을 다시 계산하는 과정
    • 데이터나 표본통계량이 정규분포를 따른다는 가정이 꼭 필요하지는 않음

  • 부트스트랩 표본(bootstrap sample): 관측 데이터 집합으로부터 얻은 복원추출 표본
  • 재표본추출(resampling): 관측 데이터로부터 반복해서 표본추출하는 과정으로 부트스트랩과 순열(permuataion) 또는 섞는(shuffling) 과정을 포함

  • 부트스트랩의 개념
    • 원래의 표본을 수천 또는수백만 번 복제하여 얻은 데이터에서 원래 표본으로부터 얻어지는 모든 정보를 포함하는 가상의 모집단을 얻는다.
    • 이 가상의 모집단에서 표본분포를 추정할 목적으로 표본을 추출한다.

    • 표본을 실제로 엄청난 횟수로 반복 복제하는 것이 아니라 각각의 표본을 뽑은 후 해당 표본을 다시 원래의 자리에 되돌려 놓는 복원추출을 한다.
    • 뽑을 때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무한한 크기의 모집단을 만들 수 있다.

크기가 \(n\)인 표본의 평균을 구하는 부트스트랩 재표본추출

  • 표본을 하나 뽑아서 기록하고 다시 재자리에 놓는다.
  • \(n\)번 반복한다.
  • 재표본추출된 값의 평균을 기록한다.
  • 위의 과정을 \(R\)번 반복한다.
  • \(R\)개의 결과를 사용해
    • \(R\)개의 결과에 대한 표준편차(표본평균의 표준오차)를 계산한다.
    • 히스토그램 또는 상자그림을 그린다.
    • 신뢰구간을 찾는다.


  • 부트스트랩 반복 횟수인 \(R\)은 임의로 설정
  • 반복 횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다
  • 이 과정을 거쳐 표본통게량 또는 추정한 모델의 매개변수의 부트스트랩 집합을 얻어, 이 집합이 얼마나 변하는지 조사할 수 있다.


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

정규분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17
표준오차  (0) 2019.09.17
표본분포  (0) 2019.09.11
표본추출의 중요성  (0) 2019.09.04

+ Recent posts