MODEL EVALUATION METRICS 모델 평가 측정 방법
모델의 성능을 평가하는데 사용하는 혼돈 행렬(confusion matrix)
Accuracy 정확도
- 모델이 전체 데이터에서 긍정을 긍정으로 부정을 부정으로 정확하게 예측한 비율로 예측한 값이 얼마나 실제의 값과 일치하는지를 측정하는 지표
Accuracy=TP+TNTP+FP+FN+TN
Precision 정밀도 또는 Positive Predictive Value(PPV) 긍정예측값
- 모델이 긍정으로 예측한 것 중에서 실제 긍정인 비율로 반복적으로 예측을 했을 때 예측한 값들이 얼마나 비슷한지를 측정하는 지표
Precision 또는 PPV=TPTP+FP
Recall 재현율 또는 Sensitivity 민감도 또는 True Positive Rate(TPR) 참긍정 비율
- 실제 긍정에 대하여 모델이 긍정으로 정확하게 예측한 비율
Recall 또는 Sensitivity 또는 TPR=TPTP+FN
F-1 score
- 정밀도와 재현율의 조화평균(harmonic mean)
F-1 score=2×PPV×TRPPPV+TPR
Specificity 특이성 또는 True Negative Rate(TNR) 참부정 비율
- 실제 부정에 대하여 모델이 부정으로 정확하게 예측한 비율
Specificity 또는 TNR=TNTN+FP
Fall-Out 또는 False Positive Rate(FPR) 거짓긍정 비율
- 실제 부정에 대하여 모델이 양성으로 잘못 예측한 비율
Fall-out 또는 FPR=FPTN+FP=1−TNR
Miss Rate 또는 False Negative Rate(FNR) 거짓부정 비율
- 실제 긍정에 대하여 모델이 부정으로 잘못 예측한 비율
Miss rate 또는 FNR=FNTP+FN=1−TPR
AUC(Area Under the ROC Curve) ROC 곡선의 아래 면적
- 신호탐지 이론(Signal Detection Theory)에서 나온 평가 방법으로 ROC(Receiver Operating Characteristic) 곡선을 이진분류(Binary Classification) 문제에서 경계값(threshold)을 바꿔가면서 거짓긍정(FP; False Positive) 비율 대비 참긍정(TP; True Positive) 비율 그래프의 아래 면적
- ROC 곡선: 학습데이터를 0 또는 1로 분류하기 위한 경계값을 −∞에서 ∞로 변화시켜가면서 거짓긍정 비율 대비 참긍정 비율을 그린 그래프
- 분류 모델의 성과를 측정하거나 두 개의 분류 모델을 비교하는데 사용
Area Under the Cumulative Lift Curve 누적 향상도 곡선의 아래 면적
- AUC의 대안으로 사용하는 평가 방법으로 직접 마케팅에서 자주 사용하는 방법
- 모델을 사용하지 않는 경우, 즉 무작위하게 선택하는 경우에 비해 모델을 사용하면 얼마나 개선이 되는지 측정하는데 사용
Lift 향상도
- 모델을 실제로 적용한다면 이 모델로 인해 얼마나 효과가 있는지 측정하는데 사용
'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글
도수분포표와 히스토그램 (0) | 2019.07.23 |
---|---|
통계학이란? (0) | 2019.07.22 |
데이터 위치 추정 (0) | 2019.04.26 |
용어 정리 (0) | 2019.04.26 |
유사도 측정 함수 Similarity Metric Functions (0) | 2018.10.02 |