데이터가 주어졌을 때, 데이터를 살펴보는 가장 기초적인 단계는 각 변수(feature)의 데이터들이 어떤 값 주위에 위치하는지(중심경향성 central tendency)를 알아보기 위해 대푯값(typical value)를 살펴보는 것입니다.
- 위치는 데이터의 특징을 요약하는 다양한 요소들 중의 하나
- 평균 mean 또는 average : 일반적으로 모든 값의 총합을 개수로 나눈 산술 평균(arithmetic mean)을 의미
- 가중평균 weighted mean 또는 weighted average : 데이터에 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
- 중앙값 median : 데이터에서 가장 가운데 위치한 값으로 50번째 백분위수 50th percentile이라고도 함
- 가중중앙값 weighted median : 데이터를 정렬한 후, 각 가중치의 값을 위에서부터 더할 때, 가중치의 합이 총합의 중앙에 위치하는 데이터
정렬된 데이터 | 가중치 | 가중치의 합 | |
1 | 0.15 | 0.15 | |
2 | 0.10 | 0.25 | |
3 | 0.20 | 0.45 | 50% 근처로 중앙값 |
4 | 0.30 | 0.75 | |
5 | 0.25 | 1.00 |
- 절사평균 trimmed mean 또는 truncated mean : 정해진 개수의 극단값(extreme value)를 제외한 나머지 값들의 평균
- 강건 robust : 극단값에 민감하지 않다는 것을 의미하며 저항성이 있다(resistant)고도 함
- 특이값 outlier : 대부분의 값과 매우 차이나는 데이터로 극단값(extreme value)라고도 함
- 추정값 estimate : 데이터로부터 얻은 값과 실제 상태를 나타내는 이론적인 참값을 구분하기 위해, 데이터로부터 계산된 값으로 통계학자가 주로 사용
- 측정지표 metric : 데이터로부터 얻은 값과 실제 상태를 나타내는 이론적인 참값을 구분하기 위해, 데이터로부터 계산된 값으로 데이터 과학자나 비즈니스 분석가가 주로 사용
'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글
도수분포표와 히스토그램 (0) | 2019.07.23 |
---|---|
통계학이란? (0) | 2019.07.22 |
용어 정리 (0) | 2019.04.26 |
Model Evaluation Metric Fuctions 모델 평가 측정 함수 (0) | 2018.10.04 |
유사도 측정 함수 Similarity Metric Functions (0) | 2018.10.02 |