재표본추출 Resampling

  • 통계학에서 무작위 변동성을 알아보기 위해, 관찰한 데이터 값에서 표본을 반복적으로 추출하는 것
  • 머신러닝 모델의 정확성을 평가하고 향상시키기위해 적용 가능
    • 부트스트랩 데이터 집합을 기반으로 하는 각각의 의사 결정 트리 모델의 예측을 배깅이라는 절차를 통해 평균 예측값을 얻을 수 있다.

  • 재표본추출 방법
    • 순열검정(permutation test): 두 개 이상의 표본을 함께 결합하여 관측값을 무작위로 (또는 전체를) 재표본으로 추출하는 과정
      • 임의화검정, 임의순열검정, 정확검정
    • 부트스트랩(bootstrap): 통계량이나 모델 매개변수(모수)의 표본분포를 추정하기 위해현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본의 통계량과 모델을 다시 계산하는 과정

순열검정

  • 두 개 이상의 표본을 사용하며, 일반적으로 A/B 또는 기타 가설검정을 위해 사용
  • 순열검정의 과정
    1. 여러 그룹의 결과를 하나의 데이터 집합으로 합친다.
    2. 결합된 데이터를 잘 섞은 다음 A그룹과 동일한 크기의 표본을 (비복원) 무작위로 추출한다.
    3. 나머지 데이터에서 B그룹과 동일한 크기의 샘플을 (비복원) 무작위로 추출한다.
    4. C그룹과 D그룹 등에 대해서도 동일한 작업을 수행한다.
    5. 원래의 표본에 대해 구한 통계량 또는 추정값(예를 들어 그룹 비율의 차이)가 무엇이었든 간에 지금 추출한 재표본에 대해 모두 다시 계산하고 기록한다. 지금까지의 작업이 한 번의 순열 반복이다.
    6. 1~5단계를 \(R\)번 반복하여 검정통계량의 순열 분포를 얻는다.
  • 실험을 통해 관찰한 그룹간의 차이와 순열 과정에서 얻은 집합에서의 차이를 비교한다.
  • 관찰한 차이가 순열로 보이는 차이의 집합 안에 잘 들어 있다면, 우리는 어떤 것도 증명할 수 없다.
    • 관찰한 차이가 우연히 일어날 수 있는 범위 안에 있다는 의미
  • 관찰한 차이가 대부분의 순열 분포의 바깥쪽에 있다면 우리는 우연 때문이 아니라고 결론내릴 수 있다.
    • 통계적으로 유의미하다(statistically significant)고 한다.


'Data Science with Python' 카테고리의 다른 글

기술 통계량(Descriptive Statistics)  (0) 2020.06.16
가설검정  (0) 2019.11.22
A/B 검정  (0) 2019.11.22
1. Data Science in a Big Data World  (0) 2018.04.06

+ Recent posts