다양한 분포들
- 람다(lambda): 단위 시간이나 단위 면적당 사건이 발생하는 비율
- 푸아송 분포(Poisson distribution): 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포
- 지수분포(exponential distribution): 한 사건에서 그 다음 사건까지의 시간이나 거리에 대한 도수분포
- 베이불 분포(Weibull distribution): 사건 발생률이 시간에 따라 변화하는 지수분포의 일반화된
푸아송 분포
- 이전에 발생한 데이터로 시간 단위 또는 공간 단위에서의 평균적인 사건의 수를 추정
- 시간별 또는공간별로 사건 발생이 얼마나 다른지 알고 싶은 경우
- 시간 단위 또는 공간 단위로 표본을 수집할 때 그 사건들의 분포를 알 수 있다
- \(5\)초 동안 서버에 도착한 인터넷 트래픽을 \(95\%\)의 확률로 완벽하게 처리하는 데 필요한 용량은 얼마일까?
- 푸아송 분포의 핵심 매개변수: \(\lambda\)
- 어떤 일정한 시간/공간 안에서 발생한 평균 사건의 수
- 푸아송 분포의 분산도 \(\lambda\)이다.
- 대기행렬 시뮬레이션에서 푸아송 분포를 따르는 난수 생성
- 고객 서비스 센터에 접수되는 문의 전화가 분당 평균 \(2\)회라면, \(100\)분을 시뮬레이션해서 \(100\)분당 문의 전화 횟수 추정하기
- \(\lambda=2\)인 푸아송 분포에서 \(100\)의 난수를 만들어 추정함
지수분포
- 푸아송 분포에서 사용된 것과 동인 매개변수 \(\lambda\)를 사용하여 사건과 사건 간의 시간 분포를 모델링
- 웹사이트 방문이 일어나는 시간 사이
- 톨게이트에 자동차가 도착하는 시간 사이
- 고장이 발생하는 시간을 모델링
- 고객 서비스 센터에 접수되는 문의 전화가 분당 평균 \(0.2\)회라면, \(100\)분을 시뮬레이션해서 \(100\)분당 문의 전화 횟수 추정하기
- 푸아송 분포나 지수분포 시뮬레이션에서의 핵심은 \(\lambda\)가 해당 기간동안 일정하게 유지된다고 가정하지만 실제로 적절하지 않은 가정이다.
- 도로의 교통 상황이나 네트워크의 트래픽은 시간대와 요일에 따라 같을 수가 없다
- 시간 주기 또는 공간을 일정 기간 충분히 같도록 영역을 잘 나눈다면 해당 기간 내의 분석 및 시뮬레이션이 가능
고장률 추정
- 많은 응용 분야에서 사건 발생 비율 \(\lambda\)는 이미 알려져 있거나 이전 데이터를 통해 추정 가능
- 드물게 발생하는 사건의 경우에는 추정하는 것이 어려움
- 항공기 엔진 고장의 경우
- 주어진 엔진 유형에 대해 고장이 발생하는 사건 사이의 시간을 예측하기 위한 데이터가 거의 없음
- 데이터가 없으므로 사건 발생률을 추정할 수 있는 근거가 없음
- 그러나 몇 가지 추축은 가능
- 20시간 후에도 아무런 일도 일어나지 않았다면 시간당 발생률이 \(1\)이 아니라는 것은 알 수 있다
- 이런 시뮬레이션 또는 확률을 직접 계산해 다른 가상 사건 발생률을 평가하고 그 이하로 떨어지지 않을 임계값 추정 가능
베이불 분포
- 많은 경우에 사건 발생률은 시간에 따라 일정하지 않다.
- 변화 주기가 일반적인 사건 발생 구간보다 훨씬 길다면 문제가 안된다.
- 비율이 상대적으로 일정한 구간으로 세분화해 분석하면 됨
- 사건 발생률이 시간에 따라 지속적으로 변한다면 푸아송 분포나 지수분포를 사용할 수 없다
- 베이불 분포는 지수분포를 확장한 것으로 형상 매개변수(shape parameter) \(\beta\)로 지정된 대로 발생률이 달라질 수 있다.
- \(\beta>1\)인 경우: 발생률은 시간이 지남에 따라 증가
- \(\beta<1\)인 경우: 발생률은 시간이 지남에 따라 감소
- 베이불 분포는 사건 발생률 대신 고장 시간 분석에 사용되므로 두 번째 매개변수는 구간당 사건 발생률보다는 특성 수명(characteristic life) 또는 척도 매개변수(scale parameter) \(\eta\)을 사용
- 베이불 분포를 사용할 때는 두 개의 변수 \(\beta\)와 \(\eta\)의 추정이 포함된다
- 가장 적합한 베이불 분포를 추정하고 모델링하는 데에는 소프트웨어를 사용