Processing math: 100%

변이 추정 Estimates of Location

  • 변이(variability): 데이터가 얼마나 밀집해 있는 혹은 퍼져있는지를 나타내는 산포도(dispersion)
    • 평균은 데이터의 분포 중에서 대표적인 값
    • 평균은 데이터가 그 주변에 어느 정도 퍼져있는지, 또는흩어져 있는지 알려주지 않는다.
  • 가장 대표적으로 사용되는 변위 추정은 관측 데이터와 위치 추정값 간의 차이를 기본으로 함
  • 변이를 측정하는 한 가지 방법은 바로 이런 편차들의 대푯값을 추정하는 것

변이와 관련된 통계량

  • 편차(deviation) 또는 오차(error), 잔차(residual): 관측값과 위치 추정값(ˉx) 간의 차이
    • 편차는 양의 값이 될 수도 음의 값이 될 수도 있기 때문에 양의 값으로 만들기 위해 주로 절대값을 사용
      • 편차의 합은 양과 음의 값으로 되어 모든 합이 0이 됨
    • 편차를 제곱한 값을 사용하게 되면 오차가 커질 수록 편차가 더 커지는 효과가 있음
|xˉx|
  • 평균절대편차(MAD, mean absolute deviation) 또는 L1 노름(L1 norm), 맨하탄 거리(Manhattan distance): 평균(ˉx)과의 편차 절대값에 대한 평균

L1 norm=1nni=1|xiˉx|

  • 분산(variance) 또는 평균제곱오차(MSE, mean square error): 평균과의 편차를 제곱한 값의 평균
    • 표본 데이터의 분산은 S2으로 표기하고, 모집단에 대한 분산은 σ2으로 표기함

variance=S2=1nni=1(xiˉx)2

  • 표준편차(SD, standard deviation) 또는 L2 노름(L1 norm), 유클리드 거리(Euclidean distance): 분산의 제곱근
    • 편차를 제곱하였기 때문에 단위를 맞추기 위하여 제곱근을 취한 값
    • 표본 데이터의 표준편차는 s로 표기하고, 모집단에 대한 표준편차는 σ로 표기함
SD=s=1nni=1(xiˉx)2
  • 중위절대편차(MAD, median absolute deviation): 중앙값(m)과의 편차에 대한 중앙값
    • 분산과 표준편차, 평균절대편차는 모두 특이점에 강건하지 않다!
    • 이상점에 강건한 중앙값을 사용하므로 강건한 변위 추정값으로 사용된다
MAD=median(|mx1|,|mx2|,|mxn|)


+ Recent posts