다양한 분포들

  • 람다(lambda): 단위 시간이나 단위 면적당 사건이  발생하는 비율
  • 푸아송 분포(Poisson distribution): 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포
  • 지수분포(exponential distribution): 한 사건에서 그 다음 사건까지의 시간이나 거리에 대한 도수분포
  • 베이불 분포(Weibull distribution): 사건 발생률이 시간에 따라 변화하는 지수분포의 일반화된


푸아송 분포

  • 이전에 발생한 데이터로 시간 단위 또는 공간 단위에서의 평균적인 사건의 수를 추정
  • 시간별 또는공간별로 사건 발생이 얼마나 다른지 알고 싶은 경우
    • 시간 단위 또는 공간 단위로 표본을 수집할 때 그 사건들의 분포를 알 수 있다
    • \(5\)초 동안 서버에 도착한 인터넷 트래픽을 \(95\%\)의 확률로 완벽하게 처리하는 데 필요한 용량은 얼마일까?
  • 푸아송 분포의 핵심 매개변수: \(\lambda\)
    • 어떤 일정한 시간/공간 안에서 발생한 평균 사건의 수
    • 푸아송 분포의 분산도 \(\lambda\)이다.
  • 대기행렬 시뮬레이션에서 푸아송 분포를 따르는 난수 생성
    • 고객 서비스 센터에 접수되는 문의 전화가 분당 평균 \(2\)회라면, \(100\)분을 시뮬레이션해서 \(100\)분당 문의 전화 횟수 추정하기
    • \(\lambda=2\)인 푸아송 분포에서 \(100\)의 난수를 만들어 추정함


지수분포

  • 푸아송 분포에서 사용된 것과 동인 매개변수 \(\lambda\)를 사용하여 사건과 사건 간의 시간 분포를 모델링
    • 웹사이트 방문이 일어나는 시간 사이
    • 톨게이트에 자동차가 도착하는 시간 사이
    • 고장이 발생하는 시간을 모델링
  • 고객 서비스 센터에 접수되는 문의 전화가 분당 평균 \(0.2\)회라면, \(100\)분을 시뮬레이션해서 \(100\)분당 문의 전화 횟수 추정하기
  • 푸아송 분포나 지수분포 시뮬레이션에서의 핵심은 \(\lambda\)가 해당 기간동안 일정하게 유지된다고 가정하지만 실제로 적절하지 않은 가정이다.
    • 도로의 교통 상황이나 네트워크의 트래픽은 시간대와 요일에 따라 같을 수가 없다
    • 시간 주기 또는 공간을 일정 기간 충분히 같도록 영역을 잘 나눈다면 해당 기간 내의 분석 및 시뮬레이션이 가능


고장률 추정

  • 많은 응용 분야에서 사건 발생 비율 \(\lambda\)는 이미 알려져 있거나 이전 데이터를 통해 추정 가능
  • 드물게 발생하는 사건의 경우에는 추정하는 것이 어려움
    • 항공기 엔진 고장의 경우
      • 주어진 엔진 유형에 대해 고장이 발생하는 사건 사이의 시간을 예측하기 위한 데이터가 거의 없음
      • 데이터가 없으므로 사건 발생률을 추정할 수 있는 근거가 없음
      • 그러나 몇 가지 추축은 가능
        • 20시간 후에도 아무런 일도 일어나지 않았다면 시간당 발생률이 \(1\)이 아니라는 것은 알 수 있다
        • 이런 시뮬레이션 또는 확률을 직접 계산해 다른 가상 사건 발생률을 평가하고 그 이하로 떨어지지 않을 임계값 추정 가능

베이불 분포

  • 많은 경우에 사건 발생률은 시간에 따라 일정하지 않다.
  • 변화 주기가 일반적인 사건 발생 구간보다 훨씬 길다면 문제가 안된다.
    • 비율이 상대적으로 일정한 구간으로 세분화해 분석하면 됨
  • 사건 발생률이 시간에 따라 지속적으로 변한다면 푸아송 분포나 지수분포를 사용할 수 없다
  • 베이불 분포는 지수분포를 확장한 것으로 형상 매개변수(shape parameter) \(\beta\)로 지정된 대로 발생률이 달라질 수 있다.
    • \(\beta>1\)인 경우: 발생률은 시간이 지남에 따라 증가
    • \(\beta<1\)인 경우: 발생률은 시간이 지남에 따라 감소
  • 베이불 분포는 사건 발생률 대신 고장 시간 분석에 사용되므로 두 번째 매개변수는 구간당 사건 발생률보다는 특성 수명(characteristic life) 또는 척도 매개변수(scale parameter) \(\eta\)을 사용
  • 베이불 분포를 사용할 때는 두 개의 변수 \(\beta\)와 \(\eta\)의 추정이 포함된다
    • 가장 적합한 베이불 분포를 추정하고 모델링하는 데에는 소프트웨어를 사용


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

이항 분포  (0) 2019.09.17
t-분포  (0) 2019.09.17
긴 꼬리 분포  (0) 2019.09.17
정규분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17

+ Recent posts