재표본추출 Resampling
- 통계학에서 무작위 변동성을 알아보기 위해, 관찰한 데이터 값에서 표본을 반복적으로 추출하는 것
- 머신러닝 모델의 정확성을 평가하고 향상시키기위해 적용 가능
- 부트스트랩 데이터 집합을 기반으로 하는 각각의 의사 결정 트리 모델의 예측을 배깅이라는 절차를 통해 평균 예측값을 얻을 수 있다.
- 재표본추출 방법
- 순열검정(permutation test): 두 개 이상의 표본을 함께 결합하여 관측값을 무작위로 (또는 전체를) 재표본으로 추출하는 과정
- 임의화검정, 임의순열검정, 정확검정
순열검정
- 두 개 이상의 표본을 사용하며, 일반적으로 A/B 또는 기타 가설검정을 위해 사용
- 순열검정의 과정
- 여러 그룹의 결과를 하나의 데이터 집합으로 합친다.
- 결합된 데이터를 잘 섞은 다음 A그룹과 동일한 크기의 표본을 (비복원) 무작위로 추출한다.
- 나머지 데이터에서 B그룹과 동일한 크기의 샘플을 (비복원) 무작위로 추출한다.
- C그룹과 D그룹 등에 대해서도 동일한 작업을 수행한다.
- 원래의 표본에 대해 구한 통계량 또는 추정값(예를 들어 그룹 비율의 차이)가 무엇이었든 간에 지금 추출한 재표본에 대해 모두 다시 계산하고 기록한다. 지금까지의 작업이 한 번의 순열 반복이다.
- 1~5단계를 \(R\)번 반복하여 검정통계량의 순열 분포를 얻는다.
- 실험을 통해 관찰한 그룹간의 차이와 순열 과정에서 얻은 집합에서의 차이를 비교한다.
- 관찰한 차이가 순열로 보이는 차이의 집합 안에 잘 들어 있다면, 우리는 어떤 것도 증명할 수 없다.
- 관찰한 차이가 우연히 일어날 수 있는 범위 안에 있다는 의미
- 관찰한 차이가 대부분의 순열 분포의 바깥쪽에 있다면 우리는 우연 때문이 아니라고 결론내릴 수 있다.
- 통계적으로 유의미하다(statistically significant)고 한다.
'Data Science with Python' 카테고리의 다른 글
기술 통계량(Descriptive Statistics) (0) | 2020.06.16 |
---|---|
가설검정 (0) | 2019.11.22 |
A/B 검정 (0) | 2019.11.22 |
1. Data Science in a Big Data World (0) | 2018.04.06 |