모델 평가

2019. 9. 24. 15:12

모델 평가

제곱근평균제곱오차(RMSE; Root Mean Square Error): 예측된 \(\hat{Y}_i\)값들의 평균제곱오차의 제곱근으로 데이터 과학의 관점에서 가장 중요한 성능 지표

전반적인 모델의 정확도를 측정하고 (머신러닝 기술로 학습된 모델을 포함하여) 다른 모델과 비교하기 위한 기준이 됨

\begin{eqnarray} \mathop{\mathrm{RMSE}}=\sqrt{\frac{\displaystyle \sum_{i=1}^n\big(y_i-\hat{y}_i\big)^2}{n}}\end{eqnarray}

잔차표준오차(RSE; Residual Standard Error): RMSE와 유사한 척도로 예측변수가 \(p\)개일 때 RSE는 다음과 같다.

RMSE와의 차이는 데이터의 개수가 아니라 자유도이다.

실무에서, 특히 빅데이터 분야에서 이 둘의 차이는 매우 작다.

\begin{eqnarray} \mathop{\mathrm{RSE}} = \sqrt{\frac{\displaystyle \sum_{i=1}^n \big(y_i - \hat{y}_i\big)^2}{n-p-1}}\end{eqnarray}

R의 summary 함수: 회귀모형의 RSE 뿐만 아니라 다른 지표도 계산

> summary(house_lm)

Call:
lm(formula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
    Bedrooms + BldgGrade, data = house, na.action = na.omit)

Residuals:
     Min       1Q   Median       3Q      Max 
-1950841  -114032   -21451    83578  9549956 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)   -5.287e+05  1.443e+04 -36.629  < 2e-16 ***
SqFtTotLiving  2.127e+02  3.401e+00  62.552  < 2e-16 ***
SqFtLot       -1.430e-02  5.760e-02  -0.248    0.804    
Bathrooms     -1.823e+04  3.225e+03  -5.654 1.58e-08 ***
Bedrooms      -4.657e+04  2.329e+03 -19.999  < 2e-16 ***
BldgGrade      1.088e+05  2.164e+03  50.266  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 259400 on 27057 degrees of freedom
Multiple R-squared:  0.5348,	Adjusted R-squared:  0.5348 
F-statistic:  6222 on 5 and 27057 DF,  p-value: < 2.2e-16

결정계수(coefficient of determination) 또는 \(R^2\) 통계량(R-squared statistic): \(0\)에서 \(1\)까지 모델에 의해 설명된 분산의 비율

\(0\leqslant R^2 \leqslant 1\)

모델의 변동량

모델이 데이터에 얼마나 적합한지 평가할 때, 회귀분석을 설명하기 위한 용도로 활용

\begin{eqnarray} R^2 = 1 - \frac{\displaystyle \sum_{i=1}^n\big(y_i - \hat{y}_i\big)^2} {\displaystyle \sum_{i=1}^n\big(y_i - \bar{y}_i\big)^2}\end{eqnarray}

분모는 \(Y\)의 분산에 비례

R에서는 자유도를 고려한 수정 \(R^2\)(adjusted \(R\)-squared) 값이 출력되며, 다중회귀분석에서는 일반 \(R^2\)과 별차이 없다.

\(p\)-통계량(statistic): 응답과 모델의 각 항의 연관성이 통계적으로 의미가 있는지 확인하기 위한 지표로 유의수준과 비교하여 귀무가설을 평가

귀무가설(null hypothesis): 응답과 항 사이에는 연관성이 없다!

유의수준(significance level): 일반적으로 \(\alpha=0.05\)을 사용하며 실제로 연관성이 없는 데 연관성이 존재한다고 결론을 내릴 위험이 \(5\%\)라는 것을 나타냄

\(p\)-값 \(\leqslant \alpha\): 연관성이 통계적으로 의미가 있다

\(p\)-값 \(> \alpha\): 연관성이 통계적으로 의미가 없다

해당 항을 제외하고 다시 모델링을 진행한다

\(t\)-통계량(statistic): 계수의 표준오차로 나눈 예측변수의 계수. 모델에서 변수의 중요도를 비교하는 기준이 됨

\begin{eqnarray} t_b = \frac{\hat{b}}{\mathop{\mathrm{SE}}\big(\hat{b}\big)}\end{eqnarray}

\(t\)-통계량과 \(p\)-값은 계수가 ‘통계적으로 유의미한’ 정도, 즉 예측변수와 목표변수를 랜텀하게 재배치했을 때 우연히 얻을 수 있는 범위를 어느 정도 벗어났는지를 측정

\(t\)-통계량이 높을수록 (\(p\)-값이 낮을수록) 예측변수는 의미를 가지므로 모델에 예측변수를 포함할지 여부를 결정하기 위한 지표로 사용

저작자표시

'Predictive Analytics' 카테고리의 다른 글

가중회귀 (0)	2019.09.26
모델 선택 및 단계적 회귀 (0)	2019.09.24
최소제곱법 (0)	2019.09.24
단순선형회귀 (0)	2019.09.19
대표적인 예측 분석 사례 (0)	2018.04.20

Machine Learning with Python

모델 평가

모델 평가

'Predictive Analytics' 카테고리의 다른 글

+ Recent posts

티스토리툴바