변이 추정 Estimates of Location

  • 변이(variability): 데이터가 얼마나 밀집해 있는 혹은 퍼져있는지를 나타내는 산포도(dispersion)
    • 평균은 데이터의 분포 중에서 대표적인 값
    • 평균은 데이터가 그 주변에 어느 정도 퍼져있는지, 또는흩어져 있는지 알려주지 않는다.
  • 가장 대표적으로 사용되는 변위 추정은 관측 데이터와 위치 추정값 간의 차이를 기본으로 함
  • 변이를 측정하는 한 가지 방법은 바로 이런 편차들의 대푯값을 추정하는 것

변이와 관련된 통계량

  • 편차(deviation) 또는 오차(error), 잔차(residual): 관측값과 위치 추정값(\(\bar{x}\)) 간의 차이
    • 편차는 양의 값이 될 수도 음의 값이 될 수도 있기 때문에 양의 값으로 만들기 위해 주로 절대값을 사용
      • 편차의 합은 양과 음의 값으로 되어 모든 합이 \(0\)이 됨
    • 편차를 제곱한 값을 사용하게 되면 오차가 커질 수록 편차가 더 커지는 효과가 있음
\begin{eqnarray} |x-\bar{x}|\end{eqnarray}
  • 평균절대편차(MAD, mean absolute deviation) 또는 L1 노름(L1 norm), 맨하탄 거리(Manhattan distance): 평균(\(\bar{x}\))과의 편차 절대값에 대한 평균

\begin{eqnarray}\textrm{L1 norm} = \frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|\end{eqnarray}

  • 분산(variance) 또는 평균제곱오차(MSE, mean square error): 평균과의 편차를 제곱한 값의 평균
    • 표본 데이터의 분산은 \(S^2\)으로 표기하고, 모집단에 대한 분산은 \(\sigma^2\)으로 표기함

\begin{eqnarray} \textrm{variance}= S^2= \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}

  • 표준편차(SD, standard deviation) 또는 L2 노름(L1 norm), 유클리드 거리(Euclidean distance): 분산의 제곱근
    • 편차를 제곱하였기 때문에 단위를 맞추기 위하여 제곱근을 취한 값
    • 표본 데이터의 표준편차는 \(s\)로 표기하고, 모집단에 대한 표준편차는 \(\sigma\)로 표기함
\begin{eqnarray} \textrm{SD}= s = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}
  • 중위절대편차(MAD, median absolute deviation): 중앙값(\(m\))과의 편차에 대한 중앙값
    • 분산과 표준편차, 평균절대편차는 모두 특이점에 강건하지 않다!
    • 이상점에 강건한 중앙값을 사용하므로 강건한 변위 추정값으로 사용된다
\begin{eqnarray} \textrm{MAD}= \textrm{median}\big(|m-x_1|, |m-x_2|,\ldots |m-x_n|\big)\end{eqnarray}


+ Recent posts