모델 평가
- 제곱근평균제곱오차(RMSE; Root Mean Square Error): 예측된 \(\hat{Y}_i\)값들의 평균제곱오차의 제곱근으로 데이터 과학의 관점에서 가장 중요한 성능 지표
- 전반적인 모델의 정확도를 측정하고 (머신러닝 기술로 학습된 모델을 포함하여) 다른 모델과 비교하기 위한 기준이 됨
\begin{eqnarray} \mathop{\mathrm{RMSE}}=\sqrt{\frac{\displaystyle \sum_{i=1}^n\big(y_i-\hat{y}_i\big)^2}{n}}\end{eqnarray}
- 잔차표준오차(RSE; Residual Standard Error): RMSE와 유사한 척도로 예측변수가 \(p\)개일 때 RSE는 다음과 같다.
- RMSE와의 차이는 데이터의 개수가 아니라 자유도이다.
- 실무에서, 특히 빅데이터 분야에서 이 둘의 차이는 매우 작다.
\begin{eqnarray} \mathop{\mathrm{RSE}} = \sqrt{\frac{\displaystyle \sum_{i=1}^n \big(y_i - \hat{y}_i\big)^2}{n-p-1}}\end{eqnarray}
- R의 summary 함수: 회귀모형의 RSE 뿐만 아니라 다른 지표도 계산
> summary(house_lm)
Call:
lm(formula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms +
Bedrooms + BldgGrade, data = house, na.action = na.omit)
Residuals:
Min 1Q Median 3Q Max
-1950841 -114032 -21451 83578 9549956
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.287e+05 1.443e+04 -36.629 < 2e-16 ***
SqFtTotLiving 2.127e+02 3.401e+00 62.552 < 2e-16 ***
SqFtLot -1.430e-02 5.760e-02 -0.248 0.804
Bathrooms -1.823e+04 3.225e+03 -5.654 1.58e-08 ***
Bedrooms -4.657e+04 2.329e+03 -19.999 < 2e-16 ***
BldgGrade 1.088e+05 2.164e+03 50.266 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 259400 on 27057 degrees of freedom
Multiple R-squared: 0.5348, Adjusted R-squared: 0.5348
F-statistic: 6222 on 5 and 27057 DF, p-value: < 2.2e-16
- 결정계수(coefficient of determination) 또는 \(R^2\) 통계량(R-squared statistic): \(0\)에서 \(1\)까지 모델에 의해 설명된 분산의 비율
- \(0\leqslant R^2 \leqslant 1\)
- 모델의 변동량
- 모델이 데이터에 얼마나 적합한지 평가할 때, 회귀분석을 설명하기 위한 용도로 활용
\begin{eqnarray} R^2 = 1 - \frac{\displaystyle \sum_{i=1}^n\big(y_i - \hat{y}_i\big)^2} {\displaystyle \sum_{i=1}^n\big(y_i - \bar{y}_i\big)^2}\end{eqnarray}
- 분모는 \(Y\)의 분산에 비례
- R에서는 자유도를 고려한 수정 \(R^2\)(adjusted \(R\)-squared) 값이 출력되며, 다중회귀분석에서는 일반 \(R^2\)과 별차이 없다.
- \(p\)-통계량(statistic): 응답과 모델의 각 항의 연관성이 통계적으로 의미가 있는지 확인하기 위한 지표로 유의수준과 비교하여 귀무가설을 평가
- 귀무가설(null hypothesis): 응답과 항 사이에는 연관성이 없다!
- 유의수준(significance level): 일반적으로 \(\alpha=0.05\)을 사용하며 실제로 연관성이 없는 데 연관성이 존재한다고 결론을 내릴 위험이 \(5\%\)라는 것을 나타냄
- \(p\)-값 \(\leqslant \alpha\): 연관성이 통계적으로 의미가 있다
- \(p\)-값 \(> \alpha\): 연관성이 통계적으로 의미가 없다
- 해당 항을 제외하고 다시 모델링을 진행한다
- \(t\)-통계량(statistic): 계수의 표준오차로 나눈 예측변수의 계수. 모델에서 변수의 중요도를 비교하는 기준이 됨
\begin{eqnarray} t_b = \frac{\hat{b}}{\mathop{\mathrm{SE}}\big(\hat{b}\big)}\end{eqnarray}
- \(t\)-통계량과 \(p\)-값은 계수가 ‘통계적으로 유의미한’ 정도, 즉 예측변수와 목표변수를 랜텀하게 재배치했을 때 우연히 얻을 수 있는 범위를 어느 정도 벗어났는지를 측정
- \(t\)-통계량이 높을수록 (\(p\)-값이 낮을수록) 예측변수는 의미를 가지므로 모델에 예측변수를 포함할지 여부를 결정하기 위한 지표로 사용
'Predictive Analytics' 카테고리의 다른 글
가중회귀 (0) | 2019.09.26 |
---|---|
모델 선택 및 단계적 회귀 (0) | 2019.09.24 |
최소제곱법 (0) | 2019.09.24 |
단순선형회귀 (0) | 2019.09.19 |
대표적인 예측 분석 사례 (0) | 2018.04.20 |