도수분포표나 히스토그램의 문제점

  • 그래프를 보고 데이터의 특징을 생각할 때 사람에 따라서 받아들이는 인상은 제각각이다.
    • 히스토그램으로 나타난 '형태'가 얼마나 높은가 하는 것은 말로 잘 표현할 수 없다.
    • 통일된 의견 도출이 어렵다.

통계량(statistic)

  • 데이터의 특징을 하나의 숫자로 요약한 것
  • 데이터의 어떤 비슷한 특징을 요약하고 싶은가에 따라 여러 가지 통계량이 개발되었다.
    • 평균(mean, average)
    • 분산(variance)
    • 표준편자(standard deviation)


평균

  • 평균(mean 또는 average): 일반적으로 데이터의 모든 값의 총합을 개수로 나눈 산술 평균(arithmetic mean)을 의미
    • 표본 데이터의 평균은 \(\bar{x}\)로 표기하고, 모집단에 대한 평균은 \(\mu\)로 표기함

\begin{eqnarray}\bar{x} = \frac{1}{n} \sum_{i=1}^nx_i\end{eqnarray}

학생 80명의 키(cm)

151   154   160   160   163   156   158   156   154   160
154   162   156   162   157   162   162   169   150   162
154   152   161   160   160   153   155   163   160   159
164   158   150   155   157   161   168   162   153   154
158   151   155   155   165   165   154   148   169   158
146   166   161   143   156   156   149   162   159   164
162   167   159   153   146   156   160   151   151   157
151   156   166   159   157   156   159   156   156   161
    • 학생 80명의 키 평균
\begin{eqnarray}\bar{x} &=& \frac{151 + 154 + \cdots + 156 + 161}{80} \\ &=& 157.575(\textrm{cm})\end{eqnarray}

  • 절사평균(trimmed  mean 또는 truncated mean): 정해진 개수의 극단값(extreme value)를 제외한 나머지 값들의 평균
    • 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 후 남은 값들을 가지고 구한 평균
    • 극단값의 영향을 제외하기 위해 사용한다.
    • 오름차순으로 정렬한 값들이 \(x_{(1)}, x_{(2)},\ldots,x_{(n)}\)이라고 할 때, \(p\)개의 가장 크고, 작은 값들을 제외한 뒤 절사평균은 다음과 같다.

\begin{eqnarray}\bar{x} = \frac{1}{n-p} \sum_{i=1}^{n-p}x_{(i)}\end{eqnarray}


  • 가중평균(weighted mean 또는 weighted average): 데이터 \(x_i\)에 가중치 \(w_i\)를 곱한 값의 총합을 가중치의 총합으로 나눈 값
\begin{eqnarray}\bar{x}_w = \frac{1}{\sum_i^nw_i} \sum_{i=1}^{n}w_ix_i\end{eqnarray}
    • 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 갖을 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
      • 여러 개의 센서로부터 평균을 구한다고 할 때, 한 센서의 정확도가 떨어진다면 그 센서에서 나온 데이터에는 낮은 가중치를 주는 것이 합리적이다.
    • 데이터를 수집할 때, 우리가 관심있는 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지 않는다.
      • 온라인 실험을 진행할 때 모든 사용자 그룹에 대해 정확히 같은 비율을 반영하는 데이터를 수집하는 것이 어렵다.
      • 이를 보정하기 위해서, 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용할 필요가 있다.

중앙값과 강건성 추정

  • 중앙값(median): 데이터를 일렬로 정렬했을 때, 한 가운데 위치하는 값
    • 데이터가 짝수인 경우: 가운데 있는 두 값의 평균
  • 평균과 중앙값의 차이
    • 평균: 모든 관측값을 사용하기 때문에 데이터에 민감
    • 중앙값: 정렬된 데이터의 가운데에 위치한 값으로 결정하므로 중간값이 많으면 위치 추정에 더 유리
  • 시애틀의 메디나와 윈더미어 가계 소득 비교 예
    • 메디나에 빌게이츠 거주하므로 평균이 높게 나올 것이며, 중앙값을 사용한다면 메디나와 윈더미어의 가계소득은 유사하게 나올 것이라 추정할 수 있음
  • 가중중앙값(weighted median): 데이터를 일렬로 정렬한 후 가중치를 적용했을 때 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값
    • 중앙값과 마찬가지로 가중중앙값 또한 특이값에 강건함

절사평균

  • 중앙값과 평균의 절충안으로 이상점의 영향을 줄이기 위해 사용
  • 데이터의 상위 10%와 하위 10%를 제외하는 방법은 데이터가 너무 작지만 않다면, 이상점으로부터 데이터를 보호할 수 있다

특이점

  • 특이점(outlier): 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값들
  • 중앙값은 결과를 왜곡할 수도 있는 특이점(outlier) 또는 이상값의 영향을 받지 않으므로 강건한 위치 추정 방법으로 알려져 있음
  • 다양한 데이터 요약과 시각화 방법에서 관습적으로 사용하는 특이점에 대한 정의가 있으나 정확한 정의는 따로 없어 주관적으로 사용
  • 특이점은 데이터 값 자체가 유효하지 않다거나 잘못되었다는 것이 아님
    • 서로 다른 단위의 값이 섞여있는 경우
    • 센서에서 잘못된 값이 읽히는 경우
  • 이런 에러 값들이 특이점이라면 평균은 잘못된 위치를 추정할 수 있지만 중앙값은 여전히 설들력있는 위치를 제공한다
    • 특이점을 확인하고 자세히 살펴봐야 한다

이상탐지

  • 전형적인 데이터 분석에서 이상점은 골칫거리가 되기도 하지만 가끔 유익한 정보도 제공한다.
  • 이상탐지(anomaly detection): 정상적인 데이터보다는 예외적으로 측정된 이상점을 주된 관심으로 하여 이를 탐지하는 것


+ Recent posts