다양한 분포들

  • 람다(lambda): 단위 시간이나 단위 면적당 사건이  발생하는 비율
  • 푸아송 분포(Poisson distribution): 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포
  • 지수분포(exponential distribution): 한 사건에서 그 다음 사건까지의 시간이나 거리에 대한 도수분포
  • 베이불 분포(Weibull distribution): 사건 발생률이 시간에 따라 변화하는 지수분포의 일반화된


푸아송 분포

  • 이전에 발생한 데이터로 시간 단위 또는 공간 단위에서의 평균적인 사건의 수를 추정
  • 시간별 또는공간별로 사건 발생이 얼마나 다른지 알고 싶은 경우
    • 시간 단위 또는 공간 단위로 표본을 수집할 때 그 사건들의 분포를 알 수 있다
    • \(5\)초 동안 서버에 도착한 인터넷 트래픽을 \(95\%\)의 확률로 완벽하게 처리하는 데 필요한 용량은 얼마일까?
  • 푸아송 분포의 핵심 매개변수: \(\lambda\)
    • 어떤 일정한 시간/공간 안에서 발생한 평균 사건의 수
    • 푸아송 분포의 분산도 \(\lambda\)이다.
  • 대기행렬 시뮬레이션에서 푸아송 분포를 따르는 난수 생성
    • 고객 서비스 센터에 접수되는 문의 전화가 분당 평균 \(2\)회라면, \(100\)분을 시뮬레이션해서 \(100\)분당 문의 전화 횟수 추정하기
    • \(\lambda=2\)인 푸아송 분포에서 \(100\)의 난수를 만들어 추정함


지수분포

  • 푸아송 분포에서 사용된 것과 동인 매개변수 \(\lambda\)를 사용하여 사건과 사건 간의 시간 분포를 모델링
    • 웹사이트 방문이 일어나는 시간 사이
    • 톨게이트에 자동차가 도착하는 시간 사이
    • 고장이 발생하는 시간을 모델링
  • 고객 서비스 센터에 접수되는 문의 전화가 분당 평균 \(0.2\)회라면, \(100\)분을 시뮬레이션해서 \(100\)분당 문의 전화 횟수 추정하기
  • 푸아송 분포나 지수분포 시뮬레이션에서의 핵심은 \(\lambda\)가 해당 기간동안 일정하게 유지된다고 가정하지만 실제로 적절하지 않은 가정이다.
    • 도로의 교통 상황이나 네트워크의 트래픽은 시간대와 요일에 따라 같을 수가 없다
    • 시간 주기 또는 공간을 일정 기간 충분히 같도록 영역을 잘 나눈다면 해당 기간 내의 분석 및 시뮬레이션이 가능


고장률 추정

  • 많은 응용 분야에서 사건 발생 비율 \(\lambda\)는 이미 알려져 있거나 이전 데이터를 통해 추정 가능
  • 드물게 발생하는 사건의 경우에는 추정하는 것이 어려움
    • 항공기 엔진 고장의 경우
      • 주어진 엔진 유형에 대해 고장이 발생하는 사건 사이의 시간을 예측하기 위한 데이터가 거의 없음
      • 데이터가 없으므로 사건 발생률을 추정할 수 있는 근거가 없음
      • 그러나 몇 가지 추축은 가능
        • 20시간 후에도 아무런 일도 일어나지 않았다면 시간당 발생률이 \(1\)이 아니라는 것은 알 수 있다
        • 이런 시뮬레이션 또는 확률을 직접 계산해 다른 가상 사건 발생률을 평가하고 그 이하로 떨어지지 않을 임계값 추정 가능

베이불 분포

  • 많은 경우에 사건 발생률은 시간에 따라 일정하지 않다.
  • 변화 주기가 일반적인 사건 발생 구간보다 훨씬 길다면 문제가 안된다.
    • 비율이 상대적으로 일정한 구간으로 세분화해 분석하면 됨
  • 사건 발생률이 시간에 따라 지속적으로 변한다면 푸아송 분포나 지수분포를 사용할 수 없다
  • 베이불 분포는 지수분포를 확장한 것으로 형상 매개변수(shape parameter) \(\beta\)로 지정된 대로 발생률이 달라질 수 있다.
    • \(\beta>1\)인 경우: 발생률은 시간이 지남에 따라 증가
    • \(\beta<1\)인 경우: 발생률은 시간이 지남에 따라 감소
  • 베이불 분포는 사건 발생률 대신 고장 시간 분석에 사용되므로 두 번째 매개변수는 구간당 사건 발생률보다는 특성 수명(characteristic life) 또는 척도 매개변수(scale parameter) \(\eta\)을 사용
  • 베이불 분포를 사용할 때는 두 개의 변수 \(\beta\)와 \(\eta\)의 추정이 포함된다
    • 가장 적합한 베이불 분포를 추정하고 모델링하는 데에는 소프트웨어를 사용


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

이항 분포  (0) 2019.09.17
t-분포  (0) 2019.09.17
긴 꼬리 분포  (0) 2019.09.17
정규분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17

이항 분포

  • 시행(trial): 동전 던지기와 같이 독립된 결과를 가져오는 하나의 사건
  • 성공(success): 동전 던지기에서 앞면을 기대하는 것처럼 시행에서 관심의 결과로 주로 \(1\)로 표기하며, 반대로 관심의 결과가 아닐 때 \(0\)으로 표기
  • 이항식(binomial) 또는 이진(binary): 예/아니오 또는 \(0\)/\(1\)과 같이 두 개의 값을 갖는 것
  • 이항시행(binomial trial) 또는 베르누이 시행(Bernoulli trial): 두 개의 결과가 나오는 시행
  • 이항분포(binomial distribution) 또는 베르누이 분포(Bernoulli distribution): \(x\)번 시행에서 성공한 횟수에 대한 분포
    • 각 시행마다 그 성공 확률(\(p\))이 정해져 있을 때, 주어진 시행 횟수(\(n\)) 중에서 성공한 횟수(\(x\))의 도수분포를 의미
    • \(x\)와 \(n\), 그리고 \(p\)의 값에 따라 다양한 이항분포가 존재
    • 한 번의 클릭이 판매로 이어질 확률이 \(0.02\)일 때, \(200\)번 클릭으로 매출이 \(0\)일 확률은 얼마인가?


  • 이항식의 결론은 구매/구매하지 않음, 클릭/클릭하지 않음, 생존/사망 등과 같은 의사결정 과정에서 매우 중요
  • 이항분포를 이해할 때 핵심은 일련의 시행이라는 아이디어
  • 각 시행은 정해진 확률로 두 가지 결과를 가짐
    • 동전 던지기 10번 → 앞면 또는 뒷면의 두 가지 가능한 결과를 갖는 시행을 10번하는 이항실험
    • 두 가지 결과가 50대 50의 확률을 가질 필요는 없으며, 확률이 합이 \(1\)이 되면 된다.

  • 이항분포의 평균: \(n\times p\)
    • 성공 확률이 \(p\)인 경우 \(n\)번의 시행에서 예상되는 성공 횟수
  • 이항분포의 분산: \(n\times p(1-p)\)
    • 시행 횟수가 충분할 경우, 특히 \(p\approx 0.5\)일 때 이항분포는 사실상 정규분포와 구별하기 어려움
    • 표본크기가 커질 수록 이항확률을 구하기 위해 많은 계산이 필요해 대부분의 통계 과정에서 평균과 분산으로 근사화한 정규분포를 사용


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

푸아송 분포  (0) 2019.09.17
t-분포  (0) 2019.09.17
긴 꼬리 분포  (0) 2019.09.17
정규분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17

스튜던트 \(t\)-분포

  • \(t\)-분포: 정규분포와 모양이 비슷하지만 꼬리 부분이 약간 더 두껍고 길다
  • 표본통계량의 분포를 설명하는 데 광범위하게 사용됨
  • 표본평균의 분포는 일반적으로 \(t\)-분포와 같은 모양으로 표본 크기에 따라 다른 계열의 \(t\)-분포가 있다.
  • 표본이 많아질 수록 더 정규분포를 닯은 \(t\)-분포가 형성된다.

탄생 배경

  • \(1908\)년 윌리암 고셋(William Sealy Gosset)이 'student'라는 필명으로 논문을 발표
  • '더 큰 모집단에서 추출한 표본평균의 표본분포는 무엇인가?'라는 질문에 답을 찾고자 재표본 실험을 실시
    • 3,000건의 범죄자들의 키와 왼손 중지 길이 데이터에서 무작위로 4개의 표본을 추출
    • \(x\)축에 표준화된 결과(\(z\) 점수)를 \(y\)축에 빈도를 나타내는 도표를 작성
    • 이를 기반으로 \(t\)-분포로 알려진 함수를 유도해 표본 결과에 가장 적합한 함수를 구하고 그림으로 비교하였다


\(t\)-분포의 신뢰구간

  • 표준화된 여러 통계 자료를 \(t\)-분포와 비교하여 신뢰구간을 추정할 수 있다.
  • 표본평균이 \(x\)이고, 크기가 \(n\)인 표본이 있다고 가정
  • 표본평균 주위의 \(90\%\) 신뢰구간은 다음과 같음
    • \(t_{n-1}(.05)\)은 \(n-1\) 자유도를 갖는 \(t\)-분포의 양쪽 끝에서 \(5\%\)를 잘라내는 \(t\) 통계량을 의미

\begin{eqnarray}\bar{x}\pm t_{n-1}(.05)\times\frac{s}{\sqrt{n}}\end{eqnarray}

  • 표본평균, 두 표본평균 간의 차이, 회귀 매개변수, 그 외 다른 통계량들의 분포를 구할 때 \(t\)-분포를 이용


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

푸아송 분포  (0) 2019.09.17
이항 분포  (0) 2019.09.17
긴 꼬리 분포  (0) 2019.09.17
정규분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17

긴 꼬리 분포 long-tailed distribution

  • 꼬리(tail): 적은 수의 극단값이 주로 존재하는 도수분포의 길고 좁은 부분
  • 왜도(skewness): 분포의 한쪽 꼬리가 반대쪽 꼬리보다 긴 정도
  • 대칭 또는비대칭 분포 모두 긴 꼬리(long-tail)을 가질 수 있다
  • 분포의 꼬리는 양 극한값에 해당
  • 실무에서 긴 꼬리와 긴 꼬리를 잘 들여보다는 것이 중요함
    • 나심 탈레브(Nassim Taleb): 주식시장의 붕괴와 같은 이례적인 사건이, 정규분포에 에측하는 것보다 더 자주 일어날 수 있다고 하는 흑고니 이론(black swan theory)를 제안
    • 주가 수익률은 데이터의 긴 꼬리 특성을 설명하기 위한 좋은 예
    • 넷플릭스(NFLX)의 일일 주식 수익률의 QQ 그림
      • 낮은 값의 점들은 대각선보다 훨씬 낮고 높은 값은 선보다 훨씬 위에 있다.
      • 데이터가 정규분포를 따른다고 할 때 예상되는 것보다 훨씬 더 많은 극단값을 관찰할 가능성이 있음을 의미
      • 평균에서 표준편차 안에 있는 점들든 선 가까이에 있다.








'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

이항 분포  (0) 2019.09.17
t-분포  (0) 2019.09.17
정규분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17
부트스트랩  (0) 2019.09.17

정규분포

  • 오차(error): 데이터와 예측값 또는 평균과의 차이
  • 표준화(정규화)하다(standardize): 데이터 값에서 평균을 빼고 표준편차로 나눈다.
  • \(z\) 점수(score): 개별 데이터를 정규화한 결과
  • 표준정규분포(standard normal distribution): 평균이 \(0\)이고, 표준편차가 \(1\)인 정규분포
  • QQ 그림(plot): 표본분포가 정규분포에 얼마나 가까운지를 보여주는 그림


  • 종 모양의 정규분포(normal distribution)는 전통적인 통계의 상징
  • 표본통계량 분포가 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었음
  • 정규분포에서 데이터의 \(68\%\)는 평균의 표준편차 안에 있으며, \(95\%\)는 표준편차의 두 배수 안에 있다.


  • 대부분의 데이터가 정규분포를 따르기 때문에, 즉 이게 정상이기 때문에 정상적인(normal) 분포라고 하는 것이 아니다

  • 실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지않는다.
  • 표본분포에서 대부분의 통계량이 정규분포를 따른다는 점에서 정규분포가 유용한 것이다.
  • 일반적으로 정규분포 가정은 경험적 확률분포나 부트스트랩 분포를 구할 수 업는 경우에 사용할 수 있는 최후의 수단이다.

표준정규분포와 QQ 그림

  • 표준정규분포: \(x\)축의 단위가 평균의 표준편차로 표현되는 정규분포
  • 정규화(normalization) 또는 표준화(standardization): 데이터를 표준정규분포와 비교하려면 데이터에서 평균을 뺀 후, 표준편차로 나누는 것
  • \(z\)-점수: 정규화한 값
  • \(z\)-분포: 정규분포의 다른 이름
  • QQ 그림: 표본이 정규분포에 얼마나 가까운지를 시각적으로 판별하는 데 사용
    • \(z\)-점수를 오름차순으로 정렬하고 각 값의 \(z\)-점수를 \(y\)축에 표시
    • \(x\)축은 정규분포에서의 해당 분위수
    • 단위: 데이터가 표준화되었기 때문에, 평균으로부터 떨어진 데이터의 표준편차 수
    • 점들이 대략 대각선 위에 놓이면 표본분포가 정규분포에 가까운 것으로 볼 수 있다.

'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

t-분포  (0) 2019.09.17
긴 꼬리 분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17
부트스트랩  (0) 2019.09.17
표준오차  (0) 2019.09.17

신뢰구간

  • 신뢰수준(confidence level): 같은 모집단에서 같은 방식으로 얻은, 관심 통계량을 포함할 것으로 예상되는 신뢰구간의 백분율
  • 구간끝점(interval endpoint): 신뢰구간의 최상위, 최하위 끝점

  • 사람들은 불확실성에 대해 자연스런 반감을 가진다.
  • 사람들(특히 전문가)은 '잘 모르겠다'는 식으로 말하는 것을 꺼려한다.
  • 분석가나 관리자는 불확실성을 인정하면서도, 그것이 어떤 단일 값(점추정(point estimation))으로 제시될 때, 추정값에 과도한 믿음을 둔다.
  • 단일값이 아닌 어떤 범위로 추정값을 제시하는 것이 이런 경향을 막는 방법이다.
  • 신뢰구간은 통계정 샘플링 원칙에 기반을 둔다.
  • 신뢰구간은 항상 \(90\%\) 또는\(95\%\)와 같이 (높은) 백분율로 표시되는 포함 수준과 함께 사용된다.
  • \(90\%\) 신뢰구간(confidence interval): 표본통계량의 부트스트랩 표본분포의 \(90\%\)를 포함하는 구간
  • 표본추정값 주위의 \(x\%\) 신뢰구간: (비슷한 샘플링 절차를 따랐을 때) 평균적으로 유사한 표본추정값 \(x\%\) 정도가 포함되어야 함

부트스트랩 신뢰구간 구하기

  • 표본크기 \(n\)과 관심있는 표본통계량이 주어졌을 때, 부트스트랩 신뢰구간을 구하는 방법
    • 데이터에서 복원추출 방식으로 크기 \(n\)인 표본을 뽑는다.
    • 재표본추출한표본으로 원하는 통계량을 계산하고 기록한다.
    • 위 과정을 \(R\)번 반복한다.
    • \(x\%\) 신뢰구간을 구하기 위해, \(R\)개의 재표본 결과로부터 분포의 양쪽 끝에서 \([(100-x)/2]\%\)만큼 잘라낸다.
    • 절단한 점들은 \(x\%\) 부트스트랩 신뢰구간의 양 끝점이다.


  • 부트스트랩은 대부분의 통계량 또는 모델 매개변수의 신뢰구간을 얻기위해 사용할 수 있는 일반적인 기법
  • 반세기가 넘도록 컴퓨터가 없던 시절 통계 교과서 및 소프트웨어에서는 수식, 특히 \(t\)-분포로 구한 신뢰구간을 사용했다.

우리가 진정으로 알고싶어 하는 것

  • 표본 결과를 얻었을 때 '참값이 일정 구간 안에 있을 확률'
  • 신뢰구간이 이 질문에 답을 주는 것은 아니지만, 결국 대부분의 사람이 이 질문에 대한 대답을 설명하는 근거로 신뢰구간을 사용
  • 신뢰구간과 관련된 확률 문제: '표본추출 절차와 모집단이 주어지면 '무엇일' 확률은 얼마인가?'
  • '표본 결과가 주어졌을 때 (모집단에 대해 어떤 것이 참일) 확률은 무엇인가?'라는 질문은 더 복잡한 계산과 불확실한 요소를 필요로 한다.

신뢰수준

  • 신뢰수준: 신뢰구간과 관련된 백분율
    • 신뢰수준이 높을 수록 구간이 더 넓어진다.
    • 표본이 작을 수록 구간이 넒어진다. 즉, 불확실성이 더 커진다.
  • 더 확실할 수록, 데이터가 적을 수록 확실한 참값을 얻기에 충분한 신뢰구간을 확보해야 한다.


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

긴 꼬리 분포  (0) 2019.09.17
정규분포  (0) 2019.09.17
부트스트랩  (0) 2019.09.17
표준오차  (0) 2019.09.17
표본분포  (0) 2019.09.11

부트스트랩

  • 부트스트랩(bootstrap)은
    • 통계량이나 모델 매개변수(모수)의 표본분포를 추정하기 위해
    • 현재 있는 표본에서 추가적으로 표본을 복원추출하고
    • 각 표본의 통계량과 모델을 다시 계산하는 과정
    • 데이터나 표본통계량이 정규분포를 따른다는 가정이 꼭 필요하지는 않음

  • 부트스트랩 표본(bootstrap sample): 관측 데이터 집합으로부터 얻은 복원추출 표본
  • 재표본추출(resampling): 관측 데이터로부터 반복해서 표본추출하는 과정으로 부트스트랩과 순열(permuataion) 또는 섞는(shuffling) 과정을 포함

  • 부트스트랩의 개념
    • 원래의 표본을 수천 또는수백만 번 복제하여 얻은 데이터에서 원래 표본으로부터 얻어지는 모든 정보를 포함하는 가상의 모집단을 얻는다.
    • 이 가상의 모집단에서 표본분포를 추정할 목적으로 표본을 추출한다.

    • 표본을 실제로 엄청난 횟수로 반복 복제하는 것이 아니라 각각의 표본을 뽑은 후 해당 표본을 다시 원래의 자리에 되돌려 놓는 복원추출을 한다.
    • 뽑을 때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무한한 크기의 모집단을 만들 수 있다.

크기가 \(n\)인 표본의 평균을 구하는 부트스트랩 재표본추출

  • 표본을 하나 뽑아서 기록하고 다시 재자리에 놓는다.
  • \(n\)번 반복한다.
  • 재표본추출된 값의 평균을 기록한다.
  • 위의 과정을 \(R\)번 반복한다.
  • \(R\)개의 결과를 사용해
    • \(R\)개의 결과에 대한 표준편차(표본평균의 표준오차)를 계산한다.
    • 히스토그램 또는 상자그림을 그린다.
    • 신뢰구간을 찾는다.


  • 부트스트랩 반복 횟수인 \(R\)은 임의로 설정
  • 반복 횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다
  • 이 과정을 거쳐 표본통게량 또는 추정한 모델의 매개변수의 부트스트랩 집합을 얻어, 이 집합이 얼마나 변하는지 조사할 수 있다.


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

정규분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17
표준오차  (0) 2019.09.17
표본분포  (0) 2019.09.11
표본추출의 중요성  (0) 2019.09.04

표준오차

  • 표준오차(standard error): 통게에 대한 표본분포의 변동성을 알려주는 단일 측정지표
    • 표본값들의 표준편차 \(s\)와 표본크기 \(n\)을 기반으로 한 통계량을 이용하여 추정 가능
\begin{eqnarray}\textrm{표준오차} = SE = \frac{s}{\sqrt{n}}\end{eqnarray}
  • 표본의 크기가 커지면 아래 그림과 같이 표준오차가 줄어든다
    • 표준오차와 표본크기 사이의 관계를 \(n\) 제곱근의 법칙(square-root of \(n\) rule)이라고도 함
    • 표준오차를 \(2\)배로 줄이려면 표본의 크기를 \(4\)배로 증가시켜야 한다


표준오차 측정시 고려할 사항

  • 모집단에서 완전히 새로운 표본들을 많이 수집한다.
  • 각각의 새 표본에 대해 통계량을 계산한다.
  • 통계량에 대한 표준편차를 계산하고, 이 표준편차를 추정치로 사용한다.


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

신뢰구간  (0) 2019.09.17
부트스트랩  (0) 2019.09.17
표본분포  (0) 2019.09.11
표본추출의 중요성  (0) 2019.09.04
상관분석 Correlation Analysis  (0) 2019.09.03

+ Recent posts