통계학에서의 표본분포 sampling distribution in statistics

  • 표본분포(sampling distribution): 하나의 모집단에서 얻은 동일한 여러 표본에 대한 표본통계량의 분포, 즉 표본통계량의 도수분포
  • 표본통계량(sample statistic): 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표
  • 데이터 분포(data distribution): 어떤 데이터 집합에서의 각 개별 값에 대한 도수분포
  • 중심극한정리(central limit theorem): 표본크기가 커질 수록 표본분포가 정규분포를 따른다는 이론
  • 표준오차(standard error): 여러 표본들로부터 얻은 표본통계량의 변량(variability)
    • 표준편차: 개별 데이터 값들의 변량


표본분포

  • 어떤 것을 측정하거나 모델을 만들기 위해 표본을 추출
  • 표본을 통해 추정이나 모델을 만들기 때문에 오류가 발생할 수 밖에 없음
  • 표본을 뽑을 때마다 결과가 달라질 것이기에 얼마나 달라지는지에 관심이 갈 수 밖에 없다
    • 표본의 변동성(sampling variability)이 우리의 관심사
    • 많은 양의 데이터가 있는 경우 다양한 표본을 얻어 통계량의 분포 확인 가능
  • 평균과 같은 표본통계량의 분포는 데이터 자체의 분포보다 규칙적이고 종 모양일 가능성이 높다
    • 통계의 기반이 되는 표본이 많아질 수록 종 모양이 될 가능성이 높아진다
    • 표본이 많아질 수록 표본통계량의 분포가 좁아진다

Lending Club 대출신청자의 연간 소득 정보 데이터

  • 단순히 1,000개의 데이터 표본
  • 5개 값의 평균 1,000개로 구성된 표본
  • 20개 값의 평균 1,000개로 구성된 표본
  • 위 3개 표본에 대한 히스토그램

 중심극한정리

  • 중심극한정리(CTL, Central Limit Theorem): 동일한 확률분포를 가진 독립 확률변수 \(n\)개의 평균의 분포는 \(n\)이 적당히 크다면 정규분포에 가까워진다
    • 대출자의 연간소득 정보와 같이 모집단이 정규분포가 아니더라도, 표본의 크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종 모양의 정규분포를 따르게 된다
    • 중심극한정리로 인하여 추론을 위한 신뢰구간이나 가설검정 계산에 정규근사 분포를 사용할 수 있다


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

부트스트랩  (0) 2019.09.17
표준오차  (0) 2019.09.17
표본추출의 중요성  (0) 2019.09.04
상관분석 Correlation Analysis  (0) 2019.09.03
데이터 분포 탐색하기  (0) 2019.09.03

표본추출의 중요성

  • 빅데이터 시대에 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수 없으면서 데이터의 크기만 늘고 있다
  • 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 커지고 있다
  • 데이터 분석은 결국 작은 표본 데이터를 가지고 예측 모델을 개발하고 테스트하는 과정을 거친다
  • 아래 그림의 왼편은 존재하지만 미지의 분포를 따를 것으로 추정되는 모집단이다
  • 우리가 유일하게 사용할 수 있는 것은 오른쪽에 있는 표본 데이터와 그 경험을 통해 얻은 분포이다.
  • 표본추출(sampling): 왼쪽에서 오른쪽을 얻어내는 것
  • 전통적인 통계학: 강력한 가정에 기초한 이론을 통해 왼쪽의 모집단을 추정

그림 출처: Practical Statistics for Data Scientis(O'Reilly, 2017)


무작위 표본추출과 표본편향

  • 표본(sample): 큰 데이터 집합에서 얻은 부분 데이터 집합
  • 모집단(population): 어떤 데이터 집합을 구성하는 전체 대상 또는 전체 집합
  • 임의추출(random sampling): 무작위로 표본을 추출하는 것
    • 무작위로 추출하기 때문에 각 추출에서 모든 데이터는 동일한 확률로 뽑힌다.
    • 이 결과로 얻은 표본을 단순임의표본(simple random sample)이라고 한다
      • 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
  • 복원추출(sampling with replacement): 표본 추출 후, 중복 추출이 가능하도록 해당 표본을 다시 모집단에 포함하여 추출하는 것
  • 비복원추출(sampling without replacement): 표본 추출 후, 중복 추출이 안되도록 해당 표본을 다음 번 추출에 사용하지 않는 것
  • 층별임의추출(stratified random sampling): 모집단을 구간으로 나누어 각 구간에서 무작위로 표본을 추출하는 것
  • 단순임의표본(simple random sample): 모집단을 구간으로 나누지 않고 임의추출로 얻은 표본
  • 표본편향(sample bias): 모집단을 잘못 대표하는 표본

데이터 품질 data quality

  • 표본을 기반으로 하는 추정이나 모델링에서 데이터의 양보다 더 중요한 역할을 함
  • 데이터 과학에서 요구하는 데이터 품질
    • 완결성(completeness)
    • 데이터 형식의 일관성(consistency of format)
    • 깨끗함(cleanliness)
    • 각 데이터 값의 정확성(accuracy of individual data point)
  • 통계학에서는 대표성(representativeness)이 추가됨

표본추출 과정의 중요성: 리터러리 다이제스트의 미국 대선 예측 설문조사

  • 1936년 미국 대통령 선거 결과 예측
    • 공화당 후보 알프레드 랜던(Al Landon) vs 민주당 후보 프랭클린 루스벨트(Franklin Roosevelt)
    • 루스벨트가 \(62\%\)의 지지율로 당선
  • 리터러리 다이제스트
    • 설문조사 대상: 전체 구독자를 포함하여 약 \(1,000\)만 명이 넘는 사람에게 우편으로 설문지를 보내 \(240\)만 명에게서 응답을 받음
    • 설문조사 결과: 랜던의 압도적인 승리
  • 갤럽 조사
    • 설문조사 대상: 약 \(1,500\)명을 대상으로 면접조사 실시
    • 설문조사 결과: 루스벨트가 \(56\%\)의 지지율로 당선 예측
  • 왜 결과가 다를까?
    • 문제는 데이터의 양이 아니라 질이다!
      • 대상자 선정 방식보다는 대상자의 수를 늘리는 데 집중
      • 왜곡된 표본추출은 잘못된 결과를 가져옴
    • 설문조사 대상자는 사회경제적으로 지위가 높은 사람들
      • 당시 소득이 낮은 유권자는 민주당, 소득이 높은 유권자는 공화당을 선호
      • 정기 구독자와 전화와 자동차 등 당시 사치품들을 소유한 덕에 마케팅 담당자의 명단에 있던 사람들로 중산층 이상
      • 표본 편향(sample bias) 발생

표본 편향

  • 원래 모집단을 대표하도록 추출되지 않고 의미가 있는 비임의(non-random) 방식으로 표본을 추출하여 발생하는 현상
  • 임의표본추출을 하더라도 어떤 표본도 모집단을 정확하게 대표할 수는 없다!
  • 모집단과 표본 간의 차이가 유의미할 만큼 크고, 첫 번째 표본과 동일한 방식으로 추출된 다른 표본들에게서도 이 차이가 계속될 때 표본 편향이 발생했다고 할 수 있다

자기선택 표본편향 self-selection sample bias

  • 소셜 미디어의 식당이나 호텔, 카페 등에 리뷰는 리뷰를 남기는 사람들이 무작위로 선택되지 않아 편향이 발생하기 쉽다
    • 리뷰 작성자 스스로 리뷰 작성에 대한 주도권을 가짐 → 자기선택 편향으로 연결됨
    • 리뷰를 남기는 사람들의 성향
      • 시설에 안좋은 경험이 있거나
      • 해당 시설과 관련이 있거나
      • 리뷰를 남기지 않는 사람들과는 뭔가 다른 유형의 사람일 가능성이 높다
  • 자기선택 표본은 상황을 정확히 파악하기 위한 지표로 사용하기 어려지만
  • 어떤 시설을 비슷한 시설과 단순 비교에는 더 신뢰할 수 있음
    • 비슷한 자기선택 편향이 각각의 경우에 똑같이 적용될 수 있기 때문

편향

  • 통계적 편향(statistical bias) : 측정 과정 또는 표본추출에서 발생하는 계통적인 오차(systematic error)
  • 임의표본추출로 인한 오류와 편향에 따른 오류를 구분하는 것이 중요
  • 사례: 과녁에 총을 쏘는 과정
    • 매번 한가운데를 정확히 맞춘다는 것은 거의 불가능
    • 편향되지 않은 사격: 오차가 있기는 하지만 탄착점이 어느 한쪽으로 치우치지는 않는다
    • 편향된 사격: 임의의 오차가 외에 편향 오차도 발생하여 탄착점이 어느 한쪽으로 치우친다

  출처: Practical Statistics for Data Scientists


임의 선택 Random Selection

  • 조지 갤럽의 임의표본추출 방법
    • 리터러리 다이제스트의 표본편향 문제를 피하기 위해 사용한 방법
    • 미국 유권자를 대표하는 표본을 얻기 위해 더 과학적으로 조사자를 선정하였음
  • 임의표본추출(random sampling) 방법론
    • 대상 데이터 정의
      • 어떤 데이터를 포함하고 포함시키지 않을 것인지
    • 표본추출 절차(sampling procedure) 정의    
      • 표본을 언제 어떤 방법으로 추출할 것인지
  • 층화표본추출(stratified sampling)
    • 모집단을 여러 층(strata)으로 나누고
    • 각 층에서 임의로 표본을 추출
  • 정치 설문 단체에서 백인, 흑인, 라틴계 유권자들의 투표 성향 조사 사례
    • 모집단에서 추출한 단순임의표본은 흑인과 라틴계 인구가 지역에 따라 적게 나올 수도 있다
    • 해당 층에 높은 가중치를 주는 표본추출을 통해 계층마다 동일한 표본크기를 얻어야 한다

평균으로의 회귀

  • 평균으로의 회귀(regression to the mean)
    • 어떤 변수를 연속적으로 측정했을 때 나타나는 현상
    • 예외적인 경우가 관찰되면 그 다음에는 중간 정도의 경우가 관찰되는 경향이 있다
    • 따라서 예외적인 경우를 너무 특별히 생각하고 의미를 부여하는 것은 선택 편향으로 이어질 수 있다
    • 1886년 프랜시스 골턴의 연구: 부모의 키와 자식의 키 간의 관계


결론

  • 가설을 구체적으로 명시하고 임의표본추출에 따라 데이터를 수집하면 편향을 막을 수 있다
  • 다른 모든 형태의 데이터 분석은 데이터 수집/분석 과정에서 생기는 편향의 위험성을 늘 갖고 있다.


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

표준오차  (0) 2019.09.17
표본분포  (0) 2019.09.11
상관분석 Correlation Analysis  (0) 2019.09.03
데이터 분포 탐색하기  (0) 2019.09.03
백분위수에 기반한 변이 추정  (2) 2019.09.03

상관분석 Correlation Analysis

  • 두 변수 간에 어떤 선형적 관계를 갖는지 분석하는 방법
  • 두 변수는 서로 관계가 없거나 상관된 관계를 가질 수 있다.
  • 상관관계(correlation) 또는 상관계수(correlation coefficient): 두 변수 간의 관계의 강도
    • 단위는 모상관계수 \(\rho\)를 사용하며 \(-1\)애서 \(+1\)까지의 범위를 가짐
    • 두 변수 간의 연관된 정도를 나타낼 뿐 인과관계를 설명하지는 않는다
    • 두 변수 간에 원인과 결과의 인과관계가 있는지를 확인하기 위해서는 회귀분석(regression analysis)을 통해 인과관계의 방향이나 정도, 그리고 수학적 모델을 확인할 수 있다

피어슨 상관계수 Pearson correlation coefficient

  • 두 변수 간의 관련성을 구하기 위해 보편적으로 사용하여 공분산을 이용해 계산
  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)일 때 \(X\)의 분산(variance)
\begin{eqnarray} S_X^2 = \frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n}\end{eqnarray}
  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)일 때 \(X\)의 표준편차(standard deviation)
\begin{eqnarray} s_X = \sqrt{\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n}}\end{eqnarray}
  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 공분산(covariance)

\begin{eqnarray} \textrm{cov}(X,Y) = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n}\end{eqnarray}

  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 상관계수(correlation coefficient)

\begin{eqnarray} \rho_{XY} &=& \frac{\textrm{cov}(X,Y)}{s_Xs_Y}\\ &=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2}}\end{eqnarray}

상관분석 결과를 해석할 때 주의할 점

  • 두 변수 중 한 변수가 증가(감소)할 때 다른 변수가 증가(감소)하더라도 이 두 변수 간에 영향관계가 없다고 할 수 없는 이유
  • The third-variable problem
    • 측정되거나 측정되지 않은 다른 변수들이 결과에 영향을 줄 수 있다
  • Direction of Casuality
    • 상관계수는 인과관계의 방향을 나타내지 않음
    • 서울 시내의 자동차 수와 교통사고 발생 수의 상관관계
      • 교통사고의 직접적인 원인이 자동차 수의 증가라고 판단할 수 없음
      • 도로사정, 초보 운전자의 증가 등 다른 요인이 있을 수 있음
    • 아버지와 아들 체중의 상관관계
      • 체중의 유전론이 확증되지 않았음
      • 식습관이 원인일 수 있음

 

'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

표본분포  (0) 2019.09.11
표본추출의 중요성  (0) 2019.09.04
데이터 분포 탐색하기  (0) 2019.09.03
백분위수에 기반한 변이 추정  (2) 2019.09.03
자유도 degree of freedom  (0) 2019.09.03

데이터 분포 탐색하기 Exploring the Data Distribution

  • 데이터 시각화(data visualization): 다양한 그래프를 활용하여 데이터의 분포를 확인
  • 데이터 분포 확인에 사용할 수 있는 그래프
    • 상자그림(box plot): Tukey가 데이터의 분포를 시각화하기 위해 간단한 방법으로 소개한 그림
    • 도수분포표(frequency table): 어떤 구간(interval) 또는 칸(bin)에 해당하는 데이터 값의 빈도를 기록한 표
    • 히스토그램(histogram): \(X\)축은 구간을, \(Y\)축은 빈도수를 나타낸 도수분포표의 그래프
    • 밀도그림(density plot): 히스토그램을 부드러운 곡선으로 나타낸 그림으로 커널밀도추정(KDE, Kernel Density Estimation)을 주로 사용



산포 dispersion

  • 산포(dispersion): 정렬된 데이터가 얼마나 퍼져있는지 보는 것
    • 변이를 추정하는 또 다른 접근법
  • 순서통계량(order statistic): 정렬된 데이터를 나타내는 통계량
  • 범위(range): 순서통계량에서 가장 기본이 되는 측도로 가장 큰 값과 가장 작은 값의 차이
    • 최솟값과 최댓값은 이상점을 분석하는 데 도움이 되지만
    • 이상점에 매우 민감하여 데이터의 산포을 측정하는 데 유용하지는 않음

백분위수 percentile

  • 크기가 있는 값들로 이루어진 데이터를 순서대로 나열했을 때 위치를 백분율로 나타낸 값
  • 일반적으로 크기가 가장 작은 것부터 나열하여 가장 작은 것을 \(0\), 가장 큰 것을 \(100\)으로 한다.
    • \(20\) 백분위수는 데이터 중에서 \(20\)번째로 작은 값
    • \(50\) 백분위수는 중앙값과 같다
    • \(80\) 백분위수는 데이터를 작은 값부터 정렬한 후, 작은 값에서 큰 값으로 전체 값의 \(80%\)가 되는 곳에 있다.
  • 분위수(quantile): 데이터를 동등한 범위로 잘라내는 구분자(cut-point)
    • \(q\)-분위수는 전체 데이터를 \(q\)개로 동등하게 나누는 구분자가 된다
    • \(2\)-분위수: 전체 데이터를 \(2\)등분하는 구분자로 중앙값이 된다
    • \(4\)-분위수(Quartile): 전체 데이터를 \(4\)등분하는 구분자는 Q1과 Q2, Q3로 3개이다.
      • Q1: \(25\) 백분위수
      • Q2: \(50\) 백분위수로 중앙값
      • Q3: \(75\) 백분위수

백분위수에 기반한 변이 추정 Estimates based on Percentiles

  • 이상점에 민감한 것을 피하기 위해 범위의 양 끝에서 값들을 지운(절사) 후 범위를 다시 알아볼 수 있다
  • 백분위수 사이의 차이를 가지고 추정
  • 사분위범위(IQR; interquartile range) 또는 범위의 중앙(midspred 또는 middle range, midrange): Q3 - Q1


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

상관분석 Correlation Analysis  (0) 2019.09.03
데이터 분포 탐색하기  (0) 2019.09.03
자유도 degree of freedom  (0) 2019.09.03
변이 추정  (0) 2019.09.03
정형화된 데이터 요소  (0) 2019.09.02

자유도 degree of freedom

  • 통계적 추정을 할 때 모집단에 대한 정보를 제공하는 표본 데이터의 독립적인 데이터의 수
  • 예를 들어, 모집단에서 \(n\)개의 데이터를 뽑았을 때 평균이 \(\bar{x}\)라고 하면,
  • \(n\)개 중에서 \(n-1\)개의 값은 아무 것이나 택할 수 있지만 평균이 \(\bar{x}\)이기 때문에
  • 1개의 값은 평균이 \(\bar{x}\)가 되도록 뽑혀야만 한다. 즉, 평균에 종속되어 있다.
  • 따라서 독립적으로 선택할 수 있는 데이터의 수는 \(n-1\)개이므로 자유도는 \(n-1\)이 된다.


변이 추정 Estimates of Location

  • 변이(variability): 데이터가 얼마나 밀집해 있는 혹은 퍼져있는지를 나타내는 산포도(dispersion)
    • 평균은 데이터의 분포 중에서 대표적인 값
    • 평균은 데이터가 그 주변에 어느 정도 퍼져있는지, 또는흩어져 있는지 알려주지 않는다.
  • 가장 대표적으로 사용되는 변위 추정은 관측 데이터와 위치 추정값 간의 차이를 기본으로 함
  • 변이를 측정하는 한 가지 방법은 바로 이런 편차들의 대푯값을 추정하는 것

변이와 관련된 통계량

  • 편차(deviation) 또는 오차(error), 잔차(residual): 관측값과 위치 추정값(\(\bar{x}\)) 간의 차이
    • 편차는 양의 값이 될 수도 음의 값이 될 수도 있기 때문에 양의 값으로 만들기 위해 주로 절대값을 사용
      • 편차의 합은 양과 음의 값으로 되어 모든 합이 \(0\)이 됨
    • 편차를 제곱한 값을 사용하게 되면 오차가 커질 수록 편차가 더 커지는 효과가 있음
\begin{eqnarray} |x-\bar{x}|\end{eqnarray}
  • 평균절대편차(MAD, mean absolute deviation) 또는 L1 노름(L1 norm), 맨하탄 거리(Manhattan distance): 평균(\(\bar{x}\))과의 편차 절대값에 대한 평균

\begin{eqnarray}\textrm{L1 norm} = \frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|\end{eqnarray}

  • 분산(variance) 또는 평균제곱오차(MSE, mean square error): 평균과의 편차를 제곱한 값의 평균
    • 표본 데이터의 분산은 \(S^2\)으로 표기하고, 모집단에 대한 분산은 \(\sigma^2\)으로 표기함

\begin{eqnarray} \textrm{variance}= S^2= \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}

  • 표준편차(SD, standard deviation) 또는 L2 노름(L1 norm), 유클리드 거리(Euclidean distance): 분산의 제곱근
    • 편차를 제곱하였기 때문에 단위를 맞추기 위하여 제곱근을 취한 값
    • 표본 데이터의 표준편차는 \(s\)로 표기하고, 모집단에 대한 표준편차는 \(\sigma\)로 표기함
\begin{eqnarray} \textrm{SD}= s = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}
  • 중위절대편차(MAD, median absolute deviation): 중앙값(\(m\))과의 편차에 대한 중앙값
    • 분산과 표준편차, 평균절대편차는 모두 특이점에 강건하지 않다!
    • 이상점에 강건한 중앙값을 사용하므로 강건한 변위 추정값으로 사용된다
\begin{eqnarray} \textrm{MAD}= \textrm{median}\big(|m-x_1|, |m-x_2|,\ldots |m-x_n|\big)\end{eqnarray}


정형화된 데이터 요소 Elements of Structured Data

  • 데이터의 출처
    • 센서 측정: IoT
    • 이벤트
    • 이미지
    • 비디오

  • 대부분의 데이터는 정형화되어 있지 않음
    • 이미지: RGB(Red, Green, Blue) 색상 정보를 가지고 있는 픽셀의 집합
    • 텍스트: 단어 또는 무의미한 문자를 순서대로 나열한 배열
    • 방문 내역: 사용자가 앱이나 웹 페이지를 이용하면서 만들어낸 일년의 반응을 배열로 모아놓은 것

  • 데이터 과학에서 가장 중요한 도전은
    • 폭발적인 양의 가공되지 않은 원시 데이터raw data를 활용 가능한 형태의 정보로 변환하는 것
    • 데이터 전처리data preprocessing 과정 중의 하나

  • 통계 기법을 사용하기 위해서는
    • 정형화되지 않은 원시 데이터를 가공하여 (마치 관계형 DB에서 추출한 것처럼) 정형화된 형태로 변환하거나
    • 처음부터 통계 기법에 사용할 수 있도록 데이터를 수집하고 저장해야 한다


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

자유도 degree of freedom  (0) 2019.09.03
변이 추정  (0) 2019.09.03
탐색적 데이터 분석의 소개  (0) 2019.08.30
평균의 의미  (0) 2019.07.24
도수분포표와 히스토그램  (0) 2019.07.23

+ Recent posts