산포 dispersion

  • 산포(dispersion): 정렬된 데이터가 얼마나 퍼져있는지 보는 것
    • 변이를 추정하는 또 다른 접근법
  • 순서통계량(order statistic): 정렬된 데이터를 나타내는 통계량
  • 범위(range): 순서통계량에서 가장 기본이 되는 측도로 가장 큰 값과 가장 작은 값의 차이
    • 최솟값과 최댓값은 이상점을 분석하는 데 도움이 되지만
    • 이상점에 매우 민감하여 데이터의 산포을 측정하는 데 유용하지는 않음

백분위수 percentile

  • 크기가 있는 값들로 이루어진 데이터를 순서대로 나열했을 때 위치를 백분율로 나타낸 값
  • 일반적으로 크기가 가장 작은 것부터 나열하여 가장 작은 것을 \(0\), 가장 큰 것을 \(100\)으로 한다.
    • \(20\) 백분위수는 데이터 중에서 \(20\)번째로 작은 값
    • \(50\) 백분위수는 중앙값과 같다
    • \(80\) 백분위수는 데이터를 작은 값부터 정렬한 후, 작은 값에서 큰 값으로 전체 값의 \(80%\)가 되는 곳에 있다.
  • 분위수(quantile): 데이터를 동등한 범위로 잘라내는 구분자(cut-point)
    • \(q\)-분위수는 전체 데이터를 \(q\)개로 동등하게 나누는 구분자가 된다
    • \(2\)-분위수: 전체 데이터를 \(2\)등분하는 구분자로 중앙값이 된다
    • \(4\)-분위수(Quartile): 전체 데이터를 \(4\)등분하는 구분자는 Q1과 Q2, Q3로 3개이다.
      • Q1: \(25\) 백분위수
      • Q2: \(50\) 백분위수로 중앙값
      • Q3: \(75\) 백분위수

백분위수에 기반한 변이 추정 Estimates based on Percentiles

  • 이상점에 민감한 것을 피하기 위해 범위의 양 끝에서 값들을 지운(절사) 후 범위를 다시 알아볼 수 있다
  • 백분위수 사이의 차이를 가지고 추정
  • 사분위범위(IQR; interquartile range) 또는 범위의 중앙(midspred 또는 middle range, midrange): Q3 - Q1


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

상관분석 Correlation Analysis  (0) 2019.09.03
데이터 분포 탐색하기  (0) 2019.09.03
자유도 degree of freedom  (0) 2019.09.03
변이 추정  (0) 2019.09.03
정형화된 데이터 요소  (0) 2019.09.02

+ Recent posts