도수분포표나 히스토그램의 문제점
- 그래프를 보고 데이터의 특징을 생각할 때 사람에 따라서 받아들이는 인상은 제각각이다.
- 히스토그램으로 나타난 '형태'가 얼마나 높은가 하는 것은 말로 잘 표현할 수 없다.
- 통일된 의견 도출이 어렵다.
통계량(statistic)
- 데이터의 특징을 하나의 숫자로 요약한 것
- 데이터의 어떤 비슷한 특징을 요약하고 싶은가에 따라 여러 가지 통계량이 개발되었다.
- 평균(mean, average)
- 분산(variance)
- 표준편자(standard deviation)
평균
- 평균(mean 또는 average): 일반적으로 데이터의 모든 값의 총합을 개수로 나눈 산술 평균(arithmetic mean)을 의미
- 표본 데이터의 평균은 \(\bar{x}\)로 표기하고, 모집단에 대한 평균은 \(\mu\)로 표기함
\begin{eqnarray}\bar{x} = \frac{1}{n} \sum_{i=1}^nx_i\end{eqnarray}
학생 80명의 키(cm) 151 154 160 160 163 156 158 156 154 160 154 162 156 162 157 162 162 169 150 162 154 152 161 160 160 153 155 163 160 159 164 158 150 155 157 161 168 162 153 154 158 151 155 155 165 165 154 148 169 158 146 166 161 143 156 156 149 162 159 164 162 167 159 153 146 156 160 151 151 157 151 156 166 159 157 156 159 156 156 161
- 학생 80명의 키 평균
\begin{eqnarray}\bar{x} &=& \frac{151 + 154 + \cdots + 156 + 161}{80} \\ &=& 157.575(\textrm{cm})\end{eqnarray}
- 절사평균(trimmed mean 또는 truncated mean): 정해진 개수의 극단값(extreme value)를 제외한 나머지 값들의 평균
- 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 후 남은 값들을 가지고 구한 평균
- 극단값의 영향을 제외하기 위해 사용한다.
- 오름차순으로 정렬한 값들이 \(x_{(1)}, x_{(2)},\ldots,x_{(n)}\)이라고 할 때, \(p\)개의 가장 크고, 작은 값들을 제외한 뒤 절사평균은 다음과 같다.
\begin{eqnarray}\bar{x} = \frac{1}{n-p} \sum_{i=1}^{n-p}x_{(i)}\end{eqnarray}
- 가중평균(weighted mean 또는 weighted average): 데이터 \(x_i\)에 가중치 \(w_i\)를 곱한 값의 총합을 가중치의 총합으로 나눈 값
\begin{eqnarray}\bar{x}_w = \frac{1}{\sum_i^nw_i} \sum_{i=1}^{n}w_ix_i\end{eqnarray}
- 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 갖을 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
- 여러 개의 센서로부터 평균을 구한다고 할 때, 한 센서의 정확도가 떨어진다면 그 센서에서 나온 데이터에는 낮은 가중치를 주는 것이 합리적이다.
- 데이터를 수집할 때, 우리가 관심있는 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지 않는다.
- 온라인 실험을 진행할 때 모든 사용자 그룹에 대해 정확히 같은 비율을 반영하는 데이터를 수집하는 것이 어렵다.
- 이를 보정하기 위해서, 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용할 필요가 있다.
중앙값과 강건성 추정
- 중앙값(median): 데이터를 일렬로 정렬했을 때, 한 가운데 위치하는 값
- 데이터가 짝수인 경우: 가운데 있는 두 값의 평균
- 평균과 중앙값의 차이
- 평균: 모든 관측값을 사용하기 때문에 데이터에 민감
- 중앙값: 정렬된 데이터의 가운데에 위치한 값으로 결정하므로 중간값이 많으면 위치 추정에 더 유리
- 시애틀의 메디나와 윈더미어 가계 소득 비교 예
- 메디나에 빌게이츠 거주하므로 평균이 높게 나올 것이며, 중앙값을 사용한다면 메디나와 윈더미어의 가계소득은 유사하게 나올 것이라 추정할 수 있음
- 가중중앙값(weighted median): 데이터를 일렬로 정렬한 후 가중치를 적용했을 때 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값
- 중앙값과 마찬가지로 가중중앙값 또한 특이값에 강건함
절사평균
- 중앙값과 평균의 절충안으로 이상점의 영향을 줄이기 위해 사용
- 데이터의 상위 10%와 하위 10%를 제외하는 방법은 데이터가 너무 작지만 않다면, 이상점으로부터 데이터를 보호할 수 있다
특이점
- 특이점(outlier): 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값들
- 중앙값은 결과를 왜곡할 수도 있는 특이점(outlier) 또는 이상값의 영향을 받지 않으므로 강건한 위치 추정 방법으로 알려져 있음
- 다양한 데이터 요약과 시각화 방법에서 관습적으로 사용하는 특이점에 대한 정의가 있으나 정확한 정의는 따로 없어 주관적으로 사용
- 특이점은 데이터 값 자체가 유효하지 않다거나 잘못되었다는 것이 아님
- 서로 다른 단위의 값이 섞여있는 경우
- 센서에서 잘못된 값이 읽히는 경우
- 이런 에러 값들이 특이점이라면 평균은 잘못된 위치를 추정할 수 있지만 중앙값은 여전히 설들력있는 위치를 제공한다
- 특이점을 확인하고 자세히 살펴봐야 한다
이상탐지
- 전형적인 데이터 분석에서 이상점은 골칫거리가 되기도 하지만 가끔 유익한 정보도 제공한다.
- 이상탐지(anomaly detection): 정상적인 데이터보다는 예외적으로 측정된 이상점을 주된 관심으로 하여 이를 탐지하는 것
'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글
정형화된 데이터 요소 (0) | 2019.09.02 |
---|---|
탐색적 데이터 분석의 소개 (0) | 2019.08.30 |
도수분포표와 히스토그램 (0) | 2019.07.23 |
통계학이란? (0) | 2019.07.22 |
데이터 위치 추정 (0) | 2019.04.26 |