부트스트랩
- 부트스트랩(bootstrap)은
- 통계량이나 모델 매개변수(모수)의 표본분포를 추정하기 위해
- 현재 있는 표본에서 추가적으로 표본을 복원추출하고
- 각 표본의 통계량과 모델을 다시 계산하는 과정
- 데이터나 표본통계량이 정규분포를 따른다는 가정이 꼭 필요하지는 않음
- 부트스트랩 표본(bootstrap sample): 관측 데이터 집합으로부터 얻은 복원추출 표본
- 재표본추출(resampling): 관측 데이터로부터 반복해서 표본추출하는 과정으로 부트스트랩과 순열(permuataion) 또는 섞는(shuffling) 과정을 포함
- 부트스트랩의 개념
- 원래의 표본을 수천 또는수백만 번 복제하여 얻은 데이터에서 원래 표본으로부터 얻어지는 모든 정보를 포함하는 가상의 모집단을 얻는다.
- 이 가상의 모집단에서 표본분포를 추정할 목적으로 표본을 추출한다.
- 표본을 실제로 엄청난 횟수로 반복 복제하는 것이 아니라 각각의 표본을 뽑은 후 해당 표본을 다시 원래의 자리에 되돌려 놓는 복원추출을 한다.
- 뽑을 때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무한한 크기의 모집단을 만들 수 있다.
크기가 \(n\)인 표본의 평균을 구하는 부트스트랩 재표본추출
- 표본을 하나 뽑아서 기록하고 다시 재자리에 놓는다.
- \(n\)번 반복한다.
- 재표본추출된 값의 평균을 기록한다.
- 위의 과정을 \(R\)번 반복한다.
- \(R\)개의 결과를 사용해
- \(R\)개의 결과에 대한 표준편차(표본평균의 표준오차)를 계산한다.
- 히스토그램 또는 상자그림을 그린다.
- 신뢰구간을 찾는다.
- 부트스트랩 반복 횟수인 \(R\)은 임의로 설정
- 반복 횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다
- 이 과정을 거쳐 표본통게량 또는 추정한 모델의 매개변수의 부트스트랩 집합을 얻어, 이 집합이 얼마나 변하는지 조사할 수 있다.