변이 추정 Estimates of Location
- 변이(variability): 데이터가 얼마나 밀집해 있는 혹은 퍼져있는지를 나타내는 산포도(dispersion)
- 평균은 데이터의 분포 중에서 대표적인 값
- 평균은 데이터가 그 주변에 어느 정도 퍼져있는지, 또는흩어져 있는지 알려주지 않는다.
- 가장 대표적으로 사용되는 변위 추정은 관측 데이터와 위치 추정값 간의 차이를 기본으로 함
- 변이를 측정하는 한 가지 방법은 바로 이런 편차들의 대푯값을 추정하는 것
변이와 관련된 통계량
- 편차(deviation) 또는 오차(error), 잔차(residual): 관측값과 위치 추정값(\(\bar{x}\)) 간의 차이
- 편차는 양의 값이 될 수도 음의 값이 될 수도 있기 때문에 양의 값으로 만들기 위해 주로 절대값을 사용
- 편차의 합은 양과 음의 값으로 되어 모든 합이 \(0\)이 됨
- 편차를 제곱한 값을 사용하게 되면 오차가 커질 수록 편차가 더 커지는 효과가 있음
\begin{eqnarray} |x-\bar{x}|\end{eqnarray}
- 평균절대편차(MAD, mean absolute deviation) 또는 L1 노름(L1 norm), 맨하탄 거리(Manhattan distance): 평균(\(\bar{x}\))과의 편차 절대값에 대한 평균
\begin{eqnarray}\textrm{L1 norm} = \frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|\end{eqnarray}
- 분산(variance) 또는 평균제곱오차(MSE, mean square error): 평균과의 편차를 제곱한 값의 평균
- 표본 데이터의 분산은 \(S^2\)으로 표기하고, 모집단에 대한 분산은 \(\sigma^2\)으로 표기함
\begin{eqnarray} \textrm{variance}= S^2= \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}
- 표준편차(SD, standard deviation) 또는 L2 노름(L1 norm), 유클리드 거리(Euclidean distance): 분산의 제곱근
- 편차를 제곱하였기 때문에 단위를 맞추기 위하여 제곱근을 취한 값
- 표본 데이터의 표준편차는 \(s\)로 표기하고, 모집단에 대한 표준편차는 \(\sigma\)로 표기함
\begin{eqnarray} \textrm{SD}= s = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}
- 중위절대편차(MAD, median absolute deviation): 중앙값(\(m\))과의 편차에 대한 중앙값
- 분산과 표준편차, 평균절대편차는 모두 특이점에 강건하지 않다!
- 이상점에 강건한 중앙값을 사용하므로 강건한 변위 추정값으로 사용된다
\begin{eqnarray} \textrm{MAD}= \textrm{median}\big(|m-x_1|, |m-x_2|,\ldots |m-x_n|\big)\end{eqnarray}
'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글
백분위수에 기반한 변이 추정 (2) | 2019.09.03 |
---|---|
자유도 degree of freedom (0) | 2019.09.03 |
정형화된 데이터 요소 (0) | 2019.09.02 |
탐색적 데이터 분석의 소개 (0) | 2019.08.30 |
평균의 의미 (0) | 2019.07.24 |