데이터가 주어졌을 때, 데이터를 살펴보는 가장 기초적인 단계는 각 변수(feature)의 데이터들이 어떤 값 주위에 위치하는지(중심경향성 central tendency)를 알아보기 위해 대푯값(typical value)를 살펴보는 것입니다.

  • 위치는 데이터의 특징을 요약하는 다양한 요소들 중의 하나
  • 평균 mean 또는 average : 일반적으로 모든 값의 총합을 개수로 나눈 산술 평균(arithmetic mean)을 의미
  • 가중평균 weighted mean 또는 weighted average : 데이터에 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
  • 중앙값 median : 데이터에서 가장 가운데 위치한 값으로 50번째 백분위수 50th percentile이라고도 함
  • 가중중앙값 weighted median : 데이터를 정렬한 후, 각 가중치의 값을 위에서부터 더할 때, 가중치의 합이 총합의 중앙에 위치하는 데이터
정렬된 데이터 가중치 가중치의 합  
1 0.15 0.15  
2 0.10 0.25  
3 0.20 0.45 50% 근처로 중앙값
4 0.30 0.75  
5 0.25 1.00  

 

  • 절사평균 trimmed  mean 또는 truncated mean : 정해진 개수의 극단값(extreme value)를 제외한 나머지 값들의 평균
  • 강건 robust : 극단값에 민감하지 않다는 것을 의미하며 저항성이 있다(resistant)고도 함
  • 특이값 outlier : 대부분의 값과 매우 차이나는 데이터로 극단값(extreme value)라고도 함
  • 추정값 estimate : 데이터로부터 얻은 값과 실제 상태를 나타내는 이론적인 참값을 구분하기 위해, 데이터로부터 계산된 값으로 통계학자가 주로 사용
  • 측정지표 metric : 데이터로부터 얻은 값과 실제 상태를 나타내는 이론적인 참값을 구분하기 위해, 데이터로부터 계산된 값으로 데이터 과학자나 비즈니스 분석가가 주로 사용

 

 

+ Recent posts