변이 추정 :: Machine Learning with Python

변이 추정

2019. 9. 3. 11:30

변이 추정 Estimates of Location

변이(variability): 데이터가 얼마나 밀집해 있는 혹은 퍼져있는지를 나타내는 산포도(dispersion)

평균은 데이터의 분포 중에서 대표적인 값

평균은 데이터가 그 주변에 어느 정도 퍼져있는지, 또는흩어져 있는지 알려주지 않는다.

가장 대표적으로 사용되는 변위 추정은 관측 데이터와 위치 추정값 간의 차이를 기본으로 함

변이를 측정하는 한 가지 방법은 바로 이런 편차들의 대푯값을 추정하는 것

변이와 관련된 통계량

편차(deviation) 또는 오차(error), 잔차(residual): 관측값과 위치 추정값(\(\bar{x}\)) 간의 차이

편차는 양의 값이 될 수도 음의 값이 될 수도 있기 때문에 양의 값으로 만들기 위해 주로 절대값을 사용

편차의 합은 양과 음의 값으로 되어 모든 합이 \(0\)이 됨

편차를 제곱한 값을 사용하게 되면 오차가 커질 수록 편차가 더 커지는 효과가 있음

\begin{eqnarray} |x-\bar{x}|\end{eqnarray}

평균절대편차(MAD, mean absolute deviation) 또는 L1 노름(L1 norm), 맨하탄 거리(Manhattan distance): 평균(\(\bar{x}\))과의 편차 절대값에 대한 평균

\begin{eqnarray}\textrm{L1 norm} = \frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|\end{eqnarray}

분산(variance) 또는 평균제곱오차(MSE, mean square error): 평균과의 편차를 제곱한 값의 평균

표본 데이터의 분산은 \(S^2\)으로 표기하고, 모집단에 대한 분산은 \(\sigma^2\)으로 표기함

\begin{eqnarray} \textrm{variance}= S^2= \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}

표준편차(SD, standard deviation) 또는 L2 노름(L1 norm), 유클리드 거리(Euclidean distance): 분산의 제곱근

편차를 제곱하였기 때문에 단위를 맞추기 위하여 제곱근을 취한 값

표본 데이터의 표준편차는 \(s\)로 표기하고, 모집단에 대한 표준편차는 \(\sigma\)로 표기함

\begin{eqnarray} \textrm{SD}= s = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2\end{eqnarray}

중위절대편차(MAD, median absolute deviation): 중앙값(\(m\))과의 편차에 대한 중앙값

분산과 표준편차, 평균절대편차는 모두 특이점에 강건하지 않다!

이상점에 강건한 중앙값을 사용하므로 강건한 변위 추정값으로 사용된다

\begin{eqnarray} \textrm{MAD}= \textrm{median}\big(|m-x_1|, |m-x_2|,\ldots |m-x_n|\big)\end{eqnarray}

저작자표시 (새창열림)

'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

백분위수에 기반한 변이 추정 (2)	2019.09.03
자유도 degree of freedom (0)	2019.09.03
정형화된 데이터 요소 (0)	2019.09.02
탐색적 데이터 분석의 소개 (0)	2019.08.30
평균의 의미 (0)	2019.07.24

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바