표본추출의 중요성

  • 빅데이터 시대에 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수 없으면서 데이터의 크기만 늘고 있다
  • 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 커지고 있다
  • 데이터 분석은 결국 작은 표본 데이터를 가지고 예측 모델을 개발하고 테스트하는 과정을 거친다
  • 아래 그림의 왼편은 존재하지만 미지의 분포를 따를 것으로 추정되는 모집단이다
  • 우리가 유일하게 사용할 수 있는 것은 오른쪽에 있는 표본 데이터와 그 경험을 통해 얻은 분포이다.
  • 표본추출(sampling): 왼쪽에서 오른쪽을 얻어내는 것
  • 전통적인 통계학: 강력한 가정에 기초한 이론을 통해 왼쪽의 모집단을 추정

그림 출처: Practical Statistics for Data Scientis(O'Reilly, 2017)


무작위 표본추출과 표본편향

  • 표본(sample): 큰 데이터 집합에서 얻은 부분 데이터 집합
  • 모집단(population): 어떤 데이터 집합을 구성하는 전체 대상 또는 전체 집합
  • 임의추출(random sampling): 무작위로 표본을 추출하는 것
    • 무작위로 추출하기 때문에 각 추출에서 모든 데이터는 동일한 확률로 뽑힌다.
    • 이 결과로 얻은 표본을 단순임의표본(simple random sample)이라고 한다
      • 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
  • 복원추출(sampling with replacement): 표본 추출 후, 중복 추출이 가능하도록 해당 표본을 다시 모집단에 포함하여 추출하는 것
  • 비복원추출(sampling without replacement): 표본 추출 후, 중복 추출이 안되도록 해당 표본을 다음 번 추출에 사용하지 않는 것
  • 층별임의추출(stratified random sampling): 모집단을 구간으로 나누어 각 구간에서 무작위로 표본을 추출하는 것
  • 단순임의표본(simple random sample): 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
  • 표본편향(sample bias): 모집단을 잘못 대표하는 표본

데이터 품질 data quality

  • 표본을 기반으로 하는 추정이나 모델링에서 데이터의 양보다 더 중요한 역할을 함
  • 데이터 과학에서 요구하는 데이터 품질
    • 완결성(completeness)
    • 데이터 형식의 일관성(consistency of format)
    • 깨끗함(cleanliness)
    • 각 데이터 값의 정확성(accuracy of individual data point)
  • 통계학에서는 대표성(representativeness)이 추가됨

표본추출 과정의 중요성: 리터러리 다이제스트의 미국 대선 예측 설문조사

  • 1936년 미국 대통령 선거 결과 예측
    • 공화당 후보 알프레드 랜던(Al Landon) vs 민주당 후보 프랭클린 루스벨트(Franklin Roosevelt)
    • 루스벨트가 \(62\%\)의 지지율로 당선
  • 리터러리 다이제스트
    • 설문조사 대상: 전체 구독자를 포함하여 약 \(1,000\)만 명이 넘는 사람에게 우편으로 설문지를 보내 \(240\)만 명에게서 응답을 받음
    • 설문조사 결과: 랜던의 압도적인 승리
  • 갤럽 조사
    • 설문조사 대상: 약 \(1,500\)명을 대상으로 면접조사 실시
    • 설문조사 결과: 루스벨트가 \(56\%\)의 지지율로 당선 예측
  • 왜 결과가 다를까?
    • 문제는 데이터의 양이 아니라 질이다!
      • 대상자 선정 방식보다는 대상자의 수를 늘리는 데 집중
      • 왜곡된 표본추출은 잘못된 결과를 가져옴
    • 설문조사 대상자는 사회경제적으로 지위가 높은 사람들
      • 당시 소득이 낮은 유권자는 민주당, 소득이 높은 유권자는 공화당을 선호
      • 정기 구독자와 전화와 자동차 등 당시 사치품들을 소유한 덕에 마케팅 담당자의 명단에 있던 사람들로 중산층 이상
      • 표본 편향(sample bias) 발생

표본 편향

  • 원래 모집단을 대표하도록 추출되지 않고 의미가 있는 비임의(non-random) 방식으로 표본을 추출하여 발생하는 현상
  • 임의표본추출을 하더라도 어떤 표본도 모집단을 정확하게 대표할 수는 없다!
  • 모집단과 표본 간의 차이가 유의미할 만큼 크고, 첫 번째 표본과 동일한 방식으로 추출된 다른 표본들에게서도 이 차이가 계속될 때 표본 편향이 발생했다고 할 수 있다

자기선택 표본편향 self-selection sample bias

  • 소셜 미디어의 식당이나 호텔, 카페 등에 리뷰는 리뷰를 남기는 사람들이 무작위로 선택되지 않아 편향이 발생하기 쉽다
    • 리뷰 작성자 스스로 리뷰 작성에 대한 주도권을 가짐 → 자기선택 편향으로 연결됨
    • 리뷰를 남기는 사람들의 성향
      • 시설에 안좋은 경험이 있거나
      • 해당 시설과 관련이 있거나
      • 리뷰를 남기지 않는 사람들과는 뭔가 다른 유형의 사람일 가능성이 높다
  • 자기선택 표본은 상황을 정확히 파악하기 위한 지표로 사용하기 어려지만
  • 어떤 시설을 비슷한 시설과 단순 비교에는 더 신뢰할 수 있음
    • 비슷한 자기선택 편향이 각각의 경우에 똑같이 적용될 수 있기 때문

편향

  • 통계적 편향(statistical bias) : 측정 과정 또는 표본추출에서 발생하는 계통적인 오차(systematic error)
  • 임의표본추출로 인한 오류와 편향에 따른 오류를 구분하는 것이 중요
  • 사례: 과녁에 총을 쏘는 과정
    • 매번 한가운데를 정확히 맞춘다는 것은 거의 불가능
    • 편향되지 않은 사격: 오차가 있기는 하지만 탄착점이 어느 한쪽으로 치우치지는 않는다
    • 편향된 사격: 임의의 오차가 외에 편향 오차도 발생하여 탄착점이 어느 한쪽으로 치우친다

  출처: Practical Statistics for Data Scientists


임의 선택 Random Selection

  • 조지 갤럽의 임의표본추출 방법
    • 리터러리 다이제스트의 표본편향 문제를 피하기 위해 사용한 방법
    • 미국 유권자를 대표하는 표본을 얻기 위해 더 과학적으로 조사자를 선정하였음
  • 임의표본추출(random sampling) 방법론
    • 대상 데이터 정의
      • 어떤 데이터를 포함하고 포함시키지 않을 것인지
    • 표본추출 절차(sampling procedure) 정의    
      • 표본을 언제 어떤 방법으로 추출할 것인지
  • 층화표본추출(stratified sampling)
    • 모집단을 여러 층(strata)으로 나누고
    • 각 층에서 임의로 표본을 추출
  • 정치 설문 단체에서 백인, 흑인, 라틴계 유권자들의 투표 성향 조사 사례
    • 모집단에서 추출한 단순임의표본은 흑인과 라틴계 인구가 지역에 따라 적게 나올 수도 있다
    • 해당 층에 높은 가중치를 주는 표본추출을 통해 계층마다 동일한 표본크기를 얻어야 한다

평균으로의 회귀

  • 평균으로의 회귀(regression to the mean)
    • 어떤 변수를 연속적으로 측정했을 때 나타나는 현상
    • 예외적인 경우가 관찰되면 그 다음에는 중간 정도의 경우가 관찰되는 경향이 있다
    • 따라서 예외적인 경우를 너무 특별히 생각하고 의미를 부여하는 것은 선택 편향으로 이어질 수 있다
    • 1886년 프랜시스 골턴의 연구: 부모의 키와 자식의 키 간의 관계


결론

  • 가설을 구체적으로 명시하고 임의표본추출에 따라 데이터를 수집하면 편향을 막을 수 있다
  • 다른 모든 형태의 데이터 분석은 데이터 수집/분석 과정에서 생기는 편향의 위험성을 늘 갖고 있다.


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

표준오차  (0) 2019.09.17
표본분포  (0) 2019.09.11
상관분석 Correlation Analysis  (0) 2019.09.03
데이터 분포 탐색하기  (0) 2019.09.03
백분위수에 기반한 변이 추정  (2) 2019.09.03

+ Recent posts