회귀모델과 예측변수 수의 관계

  • 어떤 회귀분석 문제에서는 많은 변수를 예측변수로 사용할 수 있다.
  • 예를 들어 주택 가치를 예측하기 위해 지하실 크기나 건축 연도와 같은 변수를 추가로 사용할 수 있다.
  • R에서는 회귀식에 다음과 같이 쉽게 변수들을 추가할수 있다.
> house_full <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + Bedrooms + BldgGrade + PropertyType + NbrLivingUnits + SqFtFinBasement + YrBuilt + YrRenovated + NewConstruction, data=house, na.action=na.omit)
  • 변수가 많을 수록 더 좋은 회귀모델을 얻는 것은 아니다.
    • 오컴의 면도날: 모든 것이 동일한 조건에서는 복잡한 모델보다는 단순한 모델을 우선 사용해야 한다는 원리
    • 변수를 추가하면 항상 RMSE는 감소하고 \(R^2\)는 증가
    • AIC(Akaike's informarion criteria) 지표: 회귀모델에 항을 추가할 수록 불이익을 주는 지표
      • \(P\): 변수의 개수
      • \(n\): 데이터의 개수
\begin{eqnarray}\mathop{\textrm{AIC}} = 2P + n\log \Bigg(\frac{\mathop{\textrm{RSS}}}{n}\Bigg)\end{eqnarray}
    • AIC의 값이 최소가 되는 모델을 찾아야 한다!
    • \(k\)개의 변수를 추가하면 \(2k\)만큼의 불이익을 받는다


AIC가 최소가 되는 모델 찾는 방법

  • 부분집합회귀(all subset regression): 모든 가능한 모델을 검색하는 방법
    • 변수의 모든 조합으로 구성된 회귀모델을 전부 만들어 비교해야 하므로 계산비용이 많음
    • 데이터와 예측변수가 많은 경우에 적합하지 않음
  • 단계적회귀(stppwise regression): 예측변수를 연속적으로 추가/삭제하면서 AIC가 낮아지는 모델을 찾는 방법
    • R의 MASS 패키지는 단계적 회귀함수 stepAIC를 제공
> install.packages("MASS")
> library("MASS")
> step <- stepAIC(house_full, direction="both")
Start:  AIC=671316
AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + Bedrooms + 
    BldgGrade + PropertyType + NbrLivingUnits + SqFtFinBasement + 
    YrBuilt + YrRenovated + NewConstruction

                  Df  Sum of Sq        RSS    AIC
- NbrLivingUnits   1 3.6803e+09 1.6030e+15 671314
- YrRenovated      1 1.2789e+10 1.6030e+15 671314
- SqFtLot          1 2.5471e+10 1.6030e+15 671314
- NewConstruction  1 7.1632e+10 1.6030e+15 671315
<none>                          1.6030e+15 671316
- SqFtFinBasement  1 2.8579e+11 1.6033e+15 671319
- PropertyType     2 7.8637e+12 1.6108e+15 671444
- Bathrooms        1 1.0095e+13 1.6131e+15 671484
- Bedrooms         1 2.9035e+13 1.6320e+15 671800
- SqFtTotLiving    1 1.4207e+14 1.7450e+15 673612
- YrBuilt          1 1.4711e+14 1.7501e+15 673690
- BldgGrade        1 2.3338e+14 1.8364e+15 674993

Step:  AIC=671314.1
AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + Bedrooms + 
    BldgGrade + PropertyType + SqFtFinBasement + YrBuilt + YrRenovated + 
    NewConstruction

                  Df  Sum of Sq        RSS    AIC
- YrRenovated      1 1.2524e+10 1.6030e+15 671312
- SqFtLot          1 2.5211e+10 1.6030e+15 671313
- NewConstruction  1 7.2192e+10 1.6031e+15 671313
<none>                          1.6030e+15 671314
+ NbrLivingUnits   1 3.6803e+09 1.6030e+15 671316
- SqFtFinBasement  1 2.8911e+11 1.6033e+15 671317
- PropertyType     2 7.8769e+12 1.6109e+15 671443
- Bathrooms        1 1.0152e+13 1.6131e+15 671483
- Bedrooms         1 2.9229e+13 1.6322e+15 671801
- SqFtTotLiving    1 1.4222e+14 1.7452e+15 673613
- YrBuilt          1 1.4802e+14 1.7510e+15 673702
- BldgGrade        1 2.3544e+14 1.8384e+15 675021

Step:  AIC=671312.3
AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + Bedrooms + 
    BldgGrade + PropertyType + SqFtFinBasement + YrBuilt + NewConstruction

                  Df  Sum of Sq        RSS    AIC
- SqFtLot          1 2.5083e+10 1.6030e+15 671311
- NewConstruction  1 7.1293e+10 1.6031e+15 671311
<none>                          1.6030e+15 671312
+ YrRenovated      1 1.2524e+10 1.6030e+15 671314
+ NbrLivingUnits   1 3.4152e+09 1.6030e+15 671314
- SqFtFinBasement  1 2.9330e+11 1.6033e+15 671315
- PropertyType     2 7.8650e+12 1.6109e+15 671441
- Bathrooms        1 1.0238e+13 1.6132e+15 671483
- Bedrooms         1 2.9219e+13 1.6322e+15 671799
- SqFtTotLiving    1 1.4221e+14 1.7452e+15 673611
- YrBuilt          1 1.6196e+14 1.7650e+15 673915
- BldgGrade        1 2.3548e+14 1.8385e+15 675020

Step:  AIC=671310.7
AdjSalePrice ~ SqFtTotLiving + Bathrooms + Bedrooms + BldgGrade + 
    PropertyType + SqFtFinBasement + YrBuilt + NewConstruction

                  Df  Sum of Sq        RSS    AIC
- NewConstruction  1 6.3500e+10 1.6031e+15 671310
<none>                          1.6030e+15 671311
+ SqFtLot          1 2.5083e+10 1.6030e+15 671312
+ YrRenovated      1 1.2396e+10 1.6030e+15 671313
+ NbrLivingUnits   1 3.1669e+09 1.6030e+15 671313
- SqFtFinBasement  1 2.8652e+11 1.6033e+15 671314
- PropertyType     2 7.8468e+12 1.6109e+15 671439
- Bathrooms        1 1.0215e+13 1.6132e+15 671481
- Bedrooms         1 2.9451e+13 1.6325e+15 671801
- SqFtTotLiving    1 1.4593e+14 1.7490e+15 673667
- YrBuilt          1 1.6199e+14 1.7650e+15 673914
- BldgGrade        1 2.3547e+14 1.8385e+15 675018

Step:  AIC=671309.8
AdjSalePrice ~ SqFtTotLiving + Bathrooms + Bedrooms + BldgGrade + 
    PropertyType + SqFtFinBasement + YrBuilt

                  Df  Sum of Sq        RSS    AIC
<none>                          1.6031e+15 671310
+ NewConstruction  1 6.3500e+10 1.6030e+15 671311
+ SqFtLot          1 1.7290e+10 1.6031e+15 671311
+ YrRenovated      1 1.1567e+10 1.6031e+15 671312
+ NbrLivingUnits   1 3.7093e+09 1.6031e+15 671312
- SqFtFinBasement  1 2.6805e+11 1.6033e+15 671312
- PropertyType     2 8.5458e+12 1.6116e+15 671450
- Bathrooms        1 1.0235e+13 1.6133e+15 671480
- Bedrooms         1 2.9483e+13 1.6326e+15 671801
- SqFtTotLiving    1 1.4722e+14 1.7503e+15 673686
- YrBuilt          1 1.7535e+14 1.7784e+15 674117
- BldgGrade        1 2.3572e+14 1.8388e+15 675020
    • 함수 실행 결과 house full에서 'NewConstruction'과 'SqFtlot', 'YrRenovated', 'NbrlivingUnits' 4개 변수가 삭제된 모델이 만들어졌다.
> step

Call:
lm(formula = AdjSalePrice ~ SqFtTotLiving + Bathrooms + Bedrooms + 
    BldgGrade + PropertyType + SqFtFinBasement + YrBuilt, data = house, 
    na.action = na.omit)

Coefficients:
              (Intercept)              SqFtTotLiving                  Bathrooms                   Bedrooms  
               6227632.22                     186.50                   44721.72                  -49807.18  
                BldgGrade  PropertyTypeSingle Family      PropertyTypeTownhouse            SqFtFinBasement  
                139179.23                   23328.69                   92216.25                       9.04  
                  YrBuilt  
                 -3592.47  


  • 전진선택법(forward selection method): 예측변수 없이 시작해서 각 단계에서 \(R^2\)에 가장 큰 기여도를 갖는 예측변수를 하나씩 추가하고 기여도가 통계적으로 더 이상 의미가 없을 때 중지
  • 후진선택법(backward selection method) 또는 후진제거법(backward elimination method): 전체 변수를 다 사용하는 회귀모델에서 모든 예측변수가 통계적으로 의미를 갖는 모델이 될 때까지 통계적으로 의미가 없는 예측변수를 제거


벌점회귀

  • 벌점회귀(penalized rcgression): AIC와 비슷한 개념
    • 모델 회귀식에 많은 변수(파라미터)가 모델에 불이익을 주는제약조건을 추가
    • 단계적, 전진선택, 후진선택처럼 예측변수를 완전히 제거하는 대신, 벌점회귀에서는 계수 값을 작게하거나 경우에 따라 거의 0으로 만들어 벌점을 적용
    • 많이 시용되는 벌점회귀 방법으로는 능선회귀(ridge regression)와 라소회귀(lasso regression)가 있음


과적합

  • 단계적 회귀분석과 모든 부분집합회귀는 모델을 평가하고 조정하는 데 표본 데이터를 사용
  • 만들어진 회귀모델이 과적합(overfitting)되어 표본 데이터에는 잘 맞지만 새 데이터를 적용할 때에는잘 맞지 않을 수 있음
  • 과적합을 방지하기 위해 교차타당성검사를 통해 모델의 유효성을 확인해야 한다
  • 선형회귀분석에서는 회귀분석 모델이 단순한 선형 구조를 갖기 때문에 과적합 문제가 크게 발생하지는 않는다


'Predictive Analytics' 카테고리의 다른 글

회귀를 이용한 예측  (0) 2019.09.26
가중회귀  (0) 2019.09.26
모델 평가  (0) 2019.09.24
최소제곱법  (0) 2019.09.24
단순선형회귀  (0) 2019.09.19

모델 평가

  • 제곱근평균제곱오차(RMSE; Root Mean Square Error): 예측된 \(\hat{Y}_i\)값들의 평균제곱오차의 제곱근으로 데이터 과학의 관점에서 가장 중요한 성능 지표
    • 전반적인 모델의 정확도를 측정하고 (머신러닝 기술로 학습된 모델을 포함하여) 다른 모델과 비교하기 위한 기준이 됨
\begin{eqnarray} \mathop{\mathrm{RMSE}}=\sqrt{\frac{\displaystyle \sum_{i=1}^n\big(y_i-\hat{y}_i\big)^2}{n}}\end{eqnarray}
  • 잔차표준오차(RSE; Residual Standard Error): RMSE와 유사한 척도로 예측변수가 \(p\)개일 때 RSE는 다음과 같다.
    • RMSE와의 차이는 데이터의 개수가 아니라 자유도이다.
    • 실무에서, 특히 빅데이터 분야에서 이 둘의 차이는 매우 작다.
\begin{eqnarray} \mathop{\mathrm{RSE}} = \sqrt{\frac{\displaystyle \sum_{i=1}^n \big(y_i - \hat{y}_i\big)^2}{n-p-1}}\end{eqnarray}
  • R의 summary 함수: 회귀모형의 RSE 뿐만 아니라 다른 지표도 계산
> summary(house_lm)

Call:
lm(formula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
    Bedrooms + BldgGrade, data = house, na.action = na.omit)

Residuals:
     Min       1Q   Median       3Q      Max 
-1950841  -114032   -21451    83578  9549956 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)   -5.287e+05  1.443e+04 -36.629  < 2e-16 ***
SqFtTotLiving  2.127e+02  3.401e+00  62.552  < 2e-16 ***
SqFtLot       -1.430e-02  5.760e-02  -0.248    0.804    
Bathrooms     -1.823e+04  3.225e+03  -5.654 1.58e-08 ***
Bedrooms      -4.657e+04  2.329e+03 -19.999  < 2e-16 ***
BldgGrade      1.088e+05  2.164e+03  50.266  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 259400 on 27057 degrees of freedom
Multiple R-squared:  0.5348,	Adjusted R-squared:  0.5348 
F-statistic:  6222 on 5 and 27057 DF,  p-value: < 2.2e-16


  • 결정계수(coefficient of determination) 또는 \(R^2\) 통계량(R-squared statistic): \(0\)에서 \(1\)까지 모델에 의해 설명된 분산의 비율
    • \(0\leqslant R^2 \leqslant 1\)
    • 모델의 변동량
    • 모델이 데이터에 얼마나 적합한지 평가할 때, 회귀분석을 설명하기 위한 용도로 활용
\begin{eqnarray} R^2 = 1 - \frac{\displaystyle \sum_{i=1}^n\big(y_i - \hat{y}_i\big)^2} {\displaystyle \sum_{i=1}^n\big(y_i - \bar{y}_i\big)^2}\end{eqnarray}
    • 분모는 \(Y\)의 분산에 비례
    • R에서는 자유도를 고려한 수정 \(R^2\)(adjusted \(R\)-squared) 값이 출력되며, 다중회귀분석에서는 일반 \(R^2\)과 별차이 없다.
  • \(p\)-통계량(statistic): 응답과 모델의 각 항의 연관성이 통계적으로 의미가 있는지 확인하기 위한 지표로 유의수준과 비교하여 귀무가설을 평가
    • 귀무가설(null hypothesis): 응답과 항 사이에는 연관성이 없다!
    • 유의수준(significance level): 일반적으로 \(\alpha=0.05\)을 사용하며 실제로 연관성이 없는 데 연관성이 존재한다고 결론을 내릴 위험이 \(5\%\)라는 것을 나타냄
      • \(p\)-값 \(\leqslant \alpha\): 연관성이 통계적으로 의미가 있다
      • \(p\)-값 \(> \alpha\): 연관성이 통계적으로 의미가 없다
        • 해당 항을 제외하고 다시 모델링을 진행한다
  • \(t\)-통계량(statistic): 계수의 표준오차로 나눈 예측변수의 계수. 모델에서 변수의 중요도를 비교하는 기준이 됨
\begin{eqnarray} t_b = \frac{\hat{b}}{\mathop{\mathrm{SE}}\big(\hat{b}\big)}\end{eqnarray}
    • \(t\)-통계량과 \(p\)-값은 계수가 ‘통계적으로 유의미한’ 정도, 즉 예측변수와 목표변수를 랜텀하게 재배치했을 때 우연히 얻을 수 있는 범위를 어느 정도 벗어났는지를 측정
      • \(t\)-통계량이 높을수록 (\(p\)-값이 낮을수록) 예측변수는 의미를 가지므로 모델에 예측변수를 포함할지 여부를 결정하기 위한 지표로 사용


    'Predictive Analytics' 카테고리의 다른 글

    가중회귀  (0) 2019.09.26
    모델 선택 및 단계적 회귀  (0) 2019.09.24
    최소제곱법  (0) 2019.09.24
    단순선형회귀  (0) 2019.09.19
    대표적인 예측 분석 사례  (0) 2018.04.20

    최소제곱법

    • 데이터를 적합한 모델을 만드는 방법
    • 회귀선(regression line): 잔차들을 제곱한 값들의 합인 잔차제곱합(RSS; Residual Sum of Square)을 최소로 하는 선
      • 추정값 \(\hat{b}_0\)와 \(\hat{b}_1\)은 \(\textrm{RSS}\)를 최소로 만드는 값
    \begin{eqnarray} \textrm{RSS} &=& \sum_{i=1}^n\Big(\ Y_i - \hat{Y}_i \Big)^2\\&=& \sum_{i=1}^n\bigg(Y_i - \Big(\hat{b}_0 + \hat{b}_1X_i\Big)\bigg)^2\end{eqnarray}
    • 최소제곱회귀(least squares regression) 또는 보통최소제곱(OLS; ordinary least squares)

    \begin{eqnarray} \hat{b}_1 &=& \frac{\displaystyle\sum_{i=1}^n\Big(Y_i - \bar{Y}\Big)\Big(X_i-\bar{X}\Big)}{\displaystyle\sum_{i=1}^n\Big(X_i-\bar{X}\Big)^2} \\ \hat{b}_0 &=&\bar{Y}-\hat{b}_1\bar{X}\end{eqnarray}


    예측 대 설명

    • 회귀분석의 목적: 예측변수와 결과변수 사이에 있을 것으로 추정되는 선형 관계를 밝히는 것
    • 회귀방정식의 기울기 \(\hat{b}_1\)을 추정하는 것
      • 수집된 데이터를 설명하는 방법
        • 소비자 지출과 GDP 성장 간의 관계와 같이 개별 사건을 예측하는 것이 아니라 전체적인 관계를 이해하는 데 초점을 맞춤
      • 새로운 데이터에 대한 개별 결과를 예측하는 모델 구성
        • 주된 관심은 적합값 \(\hat{Y}\)
        • 광고 캠페인의 크기에 따른 수익률 변화 예측
        • SAT 점수에 따른 학생의 평점 예측
    • 데이터를 적합한 회귀모형은 \(X\)의 변화가 \(Y\)의 변화를 유도하도록 만들어진다.
      • 회귀방정식 자체가 인과관계를 정확히 증명하는 것은 아니다.
      • 인과관계에 대한 결론은 그 관계에 대한 더 폭넓은 인해를 바탕으로 내려야 한다.
      • 사례
        • 웹 광고에서 클릭 수와 전환률 간의 명확한 관계를 보여줄 수 있다.
        • 회귀방정식이 아닌 마케팅 프로세스에 대한 지식을 발휘하면 광고 클릭이 판매로 연결된다는 결론을 이끌어낼 수 있다.


    'Predictive Analytics' 카테고리의 다른 글

    모델 선택 및 단계적 회귀  (0) 2019.09.24
    모델 평가  (0) 2019.09.24
    단순선형회귀  (0) 2019.09.19
    대표적인 예측 분석 사례  (0) 2018.04.20
    Predictive Analytics  (0) 2018.04.16

    통계학의 가장 일반적인 목표

    • 변수 \(X\) 또는 \(X_1, X_2, \ldots, X_n\)가 변수 \(Y\)와 관련이 있는가?
    • 있다면 어떤 관련이 있는가?
    • 이 관계를 이용해 \(Y\)를 예측할 수 있는가?

    단순선형회귀

    • 종속변수(dependent variable): 예측하고자 하는 변수
      • 응답변수 또는 반응변수(response variable), \(Y\)-변수, 목표(target), 출력(outcome)
    • 독립변수(independent variable) 또는 예측변수(predictor variable): 응답값을 예측하기 위해 사용되는 변수
      • \(X\)-변수, 특성(feature), 속성(attribute)
      • 레코드(record): 한 특정 경우에 대한 입력과 출력을 담고 있는 벡터
        • 행(row), 사건(case), 예시(instance), 예제(example)
      • 절편(intercept): 회귀직선의 절편
        • \(x=0\)일 때의 예측값으로 \(b_0\) 또는 \(\beta_0\)로 표기
      • 회귀계수(regression coefficient): 회귀직선의 기울기
        • 기울기(slope), 모수 추정값(parameter estimate),  가중값(weight)
        • \(b_1\) 또는 \(\beta_1\)로 표기
      • 적합값(fitted value) 또는 예측값(predicted value): 회귀직선으로부터 얻은 추정값
      • 잔차(residual) 또는 오차(error): 관측값과 예측값과의 차이
      • 최소제곱(least square): 잔차의 제곱합을 최소화하여 회귀를 적합하는 방법

      • 단순선형회귀(simple linear regression): 한 변수와 다른 변수의 크기 사이에 어떤 관계가 있는지 보여주는 것
        • \(X\)가 증가하면 \(Y\)도 증가
        • \(X\)가 증가하면 \(Y\)는 감소
      • 상관관계(correlation): 두 변수 사이의 전체적인 관점에서 관련 강도를 측정
      • 회귀(regression): 관계 자체를 정량화하는 방법 

      회귀식

      • 단순선형회귀를 사용하면 \(X\)가 얼마만큼 변하면 \(Y\)가 어느 정도 변하는지를 정확히 추정 가능
      • 상관계수는 \(X\)와 \(Y\)의 값이 바뀌어도 상관없이 두 변수간의 관련 강도를 측정할 수 있다
        • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 상관계수(correlation coefficient)

      \begin{eqnarray} \rho_{XY} &=& \frac{\textrm{cov}(X,Y)}{s_Xs_Y}\\ &=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2}}\end{eqnarray}

      • 회귀에서는 다음 회귀식(regression equation)으로 선형관계(linear relationship)를 사용해 변수 \(X\)로부터 변수 \(Y\)를 예측하고자 한다.
      \begin{eqnarray} Y &=& b_0 + b_1X\\ Y&=&\beta_0+\beta_1X \end{eqnarray}
      • 우리가 흔히 알고있는 직선의 방정식 \(y=ax+b\)와 쓰는 순서가 다르다
        • \(b_0\): 절편
        • \(b_1\): 기울기 또는 계수
        • \(Y\): \(X\)의 값에 따라 달라지므로 종속변수나 응답변수 또는 목표벡터
        • \(X\): 독립변수나 예측변수 또는 피처벡터


      회귀식 예제

      • 노동자가 면진에 노출된 연수(Exposure)와 폐활량(PEFR) 사이에 어떤 관계가 있을까?
      • 두 데이터의 산점도만 보고서는 어떤 관계가 있다고 딱히 뭐라 말하기가 어렵다.
      • 단순선형회귀는 예측변수 Exposure에 대한 함수로 응답변수 PEFR을 예측하기 위한 가장 최선의 직선을 찾는다.
      \begin{eqnarray} \textrm{PEFR} = b_0 +b_1\cdot\textrm{Exposure}\end{eqnarray}


      • 회귀분석 모델링 R code
      > model <- lm(PEFR ~ Exposure, data=lung)
      > model
      
      Call:
      lm(formula = PEFR ~ Exposure, data = lung)
      
      Coefficients:
      (Intercept)     Exposure  
          424.583       -4.185  
      
      
        • linear model
      \begin{eqnarray} \textrm{PEFR} = 424.583 - 4.185\cdot\textrm{Exposure}\end{eqnarray}



      'Predictive Analytics' 카테고리의 다른 글

      모델 평가  (0) 2019.09.24
      최소제곱법  (0) 2019.09.24
      대표적인 예측 분석 사례  (0) 2018.04.20
      Predictive Analytics  (0) 2018.04.16
      Python 준비  (0) 2017.03.31

      가정 및 개인 생활 분야

      1. 위치 예측

        • Nokia
          • 노키아는 휴대폰 추적을 통해서 미래의 사용자 위치를 예측하는 콘테스트를 주최하였다. 이를 통해 얻은 방법론들은 부분적으로 사용자 친구들의 행위(예를 들면 한 사람이 통화하는 사회적 접촉 대상자들)을 분석에 포함시켜서 스위스의 특정 지역에 거주하는 사람들에 대해서 평균적으로 그들이 어디에 있게 될 것인지를 하루 전에 20미터 범위 내에서 예측할 수 있다.
        • Microsoft
          • GPS 데이터에 근거하여 한 사람이 몇 년 후에 어디에 있게 될 것인지를 정확하게 예측하는 기술을 개발하는데 예측 분석을 활용하였다.
      2. 우정 예측

        • Facebook
          • 당신이 알고 있을 가능성이 있는 사람들 및 연결하고 싶어할 가능성이 있는 사람들을 정확하게 추천하는 방법론을 개선하기 위한 콘테스트를 후원하였다.
        • LinkedIn
          • 당신이 알고 있을 가능성이 있는 사람들을 예측하여 추천하는 서비스가 '자신들이 만든 것들 중에서 가장 중요한 데이터 제품'이라고
      3. 사랑 예측

        • Match.com
          • 온라인 데이트에서 '지능적 소개팅(Intelligent Matching)'은 당신이 교류하고 싶어할 가능성이 높은 상대를 예측한다.
        • OKCupid
          • 온라인 데이트에서 어떠한 메시지가 상대방으로부터 반응을 얻을 가능성이 가장 높은지를 예측한다.
      4. 임신 예측

        • Target 쇼핑몰
          • 쇼핑 행태로부터 고객의 임신을 예측함으로써 30%나 더 많은 대상자를 찾아내어 신생아 부모의 구매욕구에 호소할 수 있는 할인쿠폰을 보낸다.
      5. 불륜 예측

        • 모 대학 연구진
          • 불륜행각은 인구사회학적 특징보다는 형태 특징에 의해서 더 정확하게 예측된다는 것을 보여주었다. 물론 유전적 요소도 영향을 준다고 하였다.
      6. 이혼 예측

        • 모 병원 연구진
          • 90% 정확도를 가지고 이혼을 예측한다.
      7. 사망 예측

        • 보험, 의료, 범죄 소탕 및 안전 분야



      마케팅, 광고, 웹 분야

      1. (타겟 마케팅을 위하여) 구매 행위 예측

        • PREMIER Bankcard
          • 1,200만 달러의 우편 홍보물 비용을 절감하였다.
        • First Tennessee Bank
          • 우편 홍보물 비용은 20% 절감하고 반응률은 3.1% 증가하여 예측 분석에 투자된 비용 대비 600% 수익을 창출하였다.
        • Target
          • 예측 분석을 통해 매출액이 15~30% 증가하였다.
        • Harbor Sweets
          • 구매한 지 오래된 고객들을 다시 오게 만들기 위해서 데이터 분석을 통해 타깃을 선정하였는데 40%라는 놀라운 반응률을 보였다.
        • Fingerhut
          • 타기팅으로 우편 홍보물을 20% 줄여서 연간 거의 300만 달러를 절감하면서도 수익은 오히려 더 늘어났다.
        • Vermont Country Store
          • 판매 카달로그 발송 대상을 보다 정확하게 타기팅함으로써 데이터 분석에 투자한 비용 대비 11배가 넘는 수익률을 거두었다.
        • Harrah's Las Vegas
          • 이 카지노 업체는 각각의 고객들이 장기적으로 얼마나 지출할 것인지를 예측하였다.(이를 고객의 '평생가치'라고 부르기도 하였다.)
        • Cox Communications
          • 구매 경향으로 예측함으로써 우편 홍보물에 대한 반응률이 3배 증가하였다. 특히 가정용 TV, 인터넷, 이동통신 서비스 등과 같은 커뮤니케이션 관련 제품들에 대한 요구를 예측함으로써 연간 수익률이 50%에 이르게 되었다.
        • 뮤추얼 펀드 투자관리 회사
          • 평균적인 개인보다 추가적인 투자를 할 가능성이 5배나 더 높은 고객들을 선별해 내었다.
        • 영국의 한 수퍼마켓
          • 고객들 중 19%에 대해서 그 고객이 재방문할 날짜를 정확하게 예측할 수 있었으며, 그들이 지출할 금액에 대해서 10달러 이상 차이나지 않게 정확하게 예측할 수 있었다.
        • Elie Tahari
          • 여성 패션라인 제품에 대한 수요를 예측하였다.
      2. (고객 유지를 위하여) 구매 취소 행위 예측

        • PREMIER Bankcard
          • 고객 예치금 800만 달러를 이탈하지 않고 계속 보관하게 만들었다.
        • FedEx
          • 어느 고객이 경쟁업체로 넘어갈 것인가를 65~90% 정확도로 예측하였다.
        • 호주 Optus
          • 이동통신 서비스의 평균 가입자보다 서비스 해지 가능성이 10배나 높은 고객을 선별해 내었다.
        • Sprint
          • 유선전화 서비스의 평균 가입자보다 서비스 해지 가능성이 3배나 높은 고객을 선별해 내었다.
        • 노르웨이 Telenor
          • 이동통신 서비스 가입자의 이탈률을 36% 감소시켰으며, 고객유치 비용 대비 수익은 11배 높아졌다.
        • 뉴질랜드 2degrees
          • 이동통신 서비스의 평균 가입자보다 서비스 해지 가능성이 12배나 높은 고객을 선별해 내었다.
        • Lloyds TSB
          • 고객 이탈에 대한 예측 모델링을 개선함으로써 연간 이익이 800만 파운드나 증가하였다.
        • Chase Bank
          • 부동산 담보대출 조기 상환 고객을 선별해 내었다.
        • Reed Elsevier
          • 잡지의 구독갱신률이 16% 증가하였다.
      3. (거래 우선순위 선정을 위하여) 세일즈 성공 가능성 예측

        • IBM
          • IBM 캐나다 법인은 세일즈를 위해 계획한 이벤트에 응할 참가자 목표를 83% 신뢰도를 가지고 예측하였다. 즉 '우리가 이 파티를 주최한다면 사람들이 충분히 참가할 것인가?'를 예측한 것이다. 여기에는 IBM 예측 분석 솔루션의 세일즈도 포함되어 있으므로 예측 분석을 팔기 위해서 예측 분석을 한 것이다.
        • HP
          • 세일즈 담당자들에게 판매 기회를 예견해 주는 조기 경보 시스템을 구축하여 95%의 정확도로 세일즈 노력의 결과 중 92%를 예측하였다. 또한 전체 60%의 딜에 대해서 최종 결과까지 걸리는 시간을 예측하였다.
        • Bella Pictures
          • 웨딩사진 촬영 예약판매를 위해서 예비신부를 타겟팅하였다.
        • PayChex
          • 급여 및 인력관리 서비스 제공업체인 이 회사는 영업 목적의 전화통화 중 성공 가능성이 적은 통화를 예측 선별함으로써 전체 영업 목적의 통화수를 40% 감소시킴과 동시에 전체 세일즈를 늘릴 수 있었다.
        • Sun Microsystems
          • 전화 영업 성공률은 2배나 향상시켰다.
      4. (개인 맞춤화된 추천을 위하여) 제품 선택 예측

        • Amazon.com
          • 제품 추천을 통한 매출이 전체 매출의 35%를 차지한다.
        • Netflix
          • 영화 추천 능력 개선을 위한 100만 달러 상금의 콘테스트를 주최하였다. 넷플릭스 가입자들이 선택하는 영화 중 약 70%는 온라인 추천에 의한 것이라고 한다.
        • 영국 Tesco
          • 13개국에 걸친 마트 계산대에서 연간 1억 장의 개인맞춤화된 쿠폰을 발급한다. 예측 모델링은 그 이전의 다른 방법론들과 비교할 때 쿠폰 사용률을 3.6배나 증가시켰다.
        • Target
          • 제품 선별 추천 모델을 사용한 타기팅 우편홍보물로 매출이 15~20% 증가하였다.
        • U.S. Bank
          • 반응률이 2배 향상되었으며 투자 대비 교차판매 수익률이 5배 증가하였다.
        • Pandora
          • 400가지의 음악적 특성에 근거하여 음악을 추천한다.
      5. (보여줄 콘텐츠를 선별하기 위하여) 마우스 클릭 예측

        • Google
          • 사용자에게 검색 결과로 보여질 웹페이지들 중 어떤 것이 사용자의 고품질 요구에 더 부합하는가를 예측함으로써 검색 기능을 향상시켰다.
        • 교육 관련 한 포털
          • 사용자가 클릭할 가능성이 더 높은 고아고를 보여줌으로써 매  19개월마다 100만 달러의 매출을 추가로 창출하였다.
      6. (광고주에게 경고하기 위하여) 비효율적인 광고 예측

        • Google
          • 새로운 광고들 중에서 어떤 것이 더 많이 후회(bounce)하게 만드는가를 예측한다(즉, 사람들이 어떤 광고를 클릭한 후 즉시 이전 페이지로 다시 되돌아오는가를 분석한다).
      7. (노출 극대화를 위하여) 트윗 및 게시물의 구전 효과 예측

        • MTV
          • 비디오 뮤직 어워드 방송 시 해당 웹피이지의 페이지 뷰가 55% 증가하였다.
      8. (스팸 편지함에 자동으로 집어넣기 위하여) 스팸 메일 예측

        • Google
          • 2004년까지만 해도 상당히 높았던 Gmail의 스팸 메일 오인률(false positive rate)이 현재는 거의 무시해도 좋을 정도로 낮아졌다.
      9. 히트곡 및 히트 영화

        • 모 연구진
          • 머신 러닝을 이용해 어떤 시나리오 대본이 할리우드의 대박 영화가 될 것인지 그리고 어떤 노래가 음원 차트에서 히트를 칠 것인지를 예측하였다.



      금융 리스크 및 보험 분야

      1. 자동차 충돌로 인한 신체 상해 예측

        • Allstate
          • 2012년에 개최된 예측 모델링 콘테스트를 통해서 보험 가입 차량의 특성들에 근거하여 신체 상해 부담금액의 예측 정확도를 3배나 향상시켰다.
      2. 고액의 산업재해 상해 예측

        • Accident Fund Insurance
          • 의료보허 가입자의 비용청구서 내용으로부터 2차적 건강 조건(예를 들면 비만이나 당뇨병 여부)을 확인한다. 이러한 조건들은 어떤 상해를 당했을 때 고액의 비용이 발생할지를 예측하게 해줌으로써 예를 들어 보험에 가입한 직원들 중 특정인에게 예방조치를 취하도록 할 것인지 여부를 판단할 수 있게 해준다.
      3. 보험 청구 예측

        • Infinity Insurance
          • 보험 청구 신청서 승인 및 거절에 활용
        • 유명한 국제상선보험사
          • 예측 모델을 이용하여 '손실률'을 0.5% 낮춤으로써 거의 5천만 달러를 절약할 수 있게 되었다.
      4. 사망 예측

        • 생명보함사들
          • 보험가입 승인 여부 및 보함납입액을 결정하기 위해서 사망 연령을 예측한다.
        • 상위 5위권에 드는 미국의 한 의료보험회사
          • 사망 예측은 의료보험의 일반적 영역에 포함되지 않는다. 이 사례의 본질은 의료 분야 참조
      5. 부동산 담보대출 조기상환 예측

        • Chase Bank
          • 어떤 주택소유자가 부동산 담보대출을 갈아타기(대환대출)하여 향후 지불할 이자를 모조리 경쟁 은행에 가져다줄지를 미리 알 수 있는 예측 모델을 사용하여 수억 달러의 이익을 창출하였다.
      6. 파산(리스크) 예측

        • Citigroup
          • 30년이 넘는 기간 동안의 국제적 채무불이행 사례들에 대한 분석을 활용하여 각 지역별로(북미 및 서유럽 지역에서는 더 세분하여 산업별로) 상업적 신용 리스크 모델들을 개발하였다. 은행 내부에서 이러한 모델을 이용한 담당자들이 3천 명에 이르며 이 모델들은 20년이 넘게 이용되었다.
        • Canadian Tire
          • 리스크 관리를 위해서 신용카드 지불 연체를 예측하였다.
        • PREMIER Bankcard
          • 연체율 및 대손상각비율을 낮출 수 있었으며 1천만 달러 이상의 수익을 올렸다.
      7. 청구서 체납 예측

        • Brasil Telecom(지금은 Oi로 개명)
          • 악성 체납을 예측하여 400만 달러를 회수하였다.
        • DTE Energy
          • 대손상각에 대해서 선제적으로 대응하고 서비스 해지를 줄임으로써 비용을 700% 절감하였다.
        • 모 금융기관
          • 전액 상환이 불가능하다고 채무자들에게 상환금액을 조정해 주고 전액 상환이 가능하다고 예측된 채무자들에게는 조정을 해주지 않음으로써 210만 달러 규모의 손실을 줄일 수 있었다.
      8. 주식시장(블랙박스 거래) 예측

        • London Stock Exchange
          • 런전 주식거래소 거래량의 약 40%가 알고리즘 시스템에 의해서 이루어진다.
        • John Elder
          • 자신이 직접 설계한 블랙박스 거래 시스템에 자신의 전재산을 투자하였다.
        • 다양한 회사들
          • AlphaGenius, Cerebellum Captial, Rebellion Research, 그리고 많은 회사들이 알고리즘에 의해서 거래한다.


      의료 분야

      1. 사망 예측

        • 상위 5위권에 드는 미국의 한 의료보험회사
          • 말기 의료 서비스(유언장 작성 및 통증완화 치료 등)를 제공하기 위하여 건강보험 노인 가입자가 18개월 이내에 사망할 가능성을 예측한다.
        • Riskprediction.org.uk
          • 사용자의 신체조건 등에 근거하여 간단한 수술, 중대한 수술, 복잡한 수술, 복원성 대장직장절제술 같은 특수수술 등의 수술 도중에 사망할 리스크를 예측한다.
      2. 유행성 독감 예측

        • Google Flu Trends
          • (증상과 관련된) 온라인 검색 트렌드를 분석함으로써 질병통제센터보다 7~10일 앞서서 병원의 독감 환자 증가를 예측할 수 있다는 것을 보여주었다.
      3. 유방암 탐지

        • Stanford Univeristy
          • 예측 모델링을 활용하여 샘플 세포조직의 더 많은 요소들을 고려함으로써 유방암을 의사보다 훨씬 더 잘 진단해 낼 수 있는 혁신적 방법론을 개발하였다.
      4. 패혈증 예측

        • Systers of Mercy Health Systems
          • 환자의 활력징후(vital signs) 관찰에 근거하여 심각한 패혈증 및 패혈 쇼크를 예측한다. 수용 가능한 오인율 범위 내에서 71%의 케이스를 탐지하였다.
      5. HIV 진행 예측

        • 모 연구진
          • 질병 진행에 대한 예측 정확도를 70%에서 78%로 개선하였다.
      6. 약품 효능 예측

        • Pfizer
          • 환자에게 약품 투여 시 3주 이내에 호전될 확률을 예측한다.
      7. 조산 예측

        • 브리검영 대학 및 유타 대학
          • 빠르면 임신 24주차의 혈액 샘플에서 찾아볼 수 있는 펩타이드 바이오마커(peptide biomarker)에 근거하여 조산 위험성을 80% 정도 정확하게 예측한다.
      8. 발기 부전 예측

        • Pfizer
          • 더 효과적이고 간단한 자가진단 테스트용 5가지를 개발하였다.
        • John Elder
          • 자신이 직접 설계한 블랙박스 거래 시스템에 자신의 전재산을 투자하였다.
        • 다양한 회사들
          • AlphaGenius, Cerebellum Captial, Rebellion Research, 그리고 많은 회사들이 알고리즘에 의해서 거래한다.





      출처 : 빅데이터의 다음 단계는 예측 분석이다 - 에릭 시겔

      'Predictive Analytics' 카테고리의 다른 글

      최소제곱법  (0) 2019.09.24
      단순선형회귀  (0) 2019.09.19
      Predictive Analytics  (0) 2018.04.16
      Python 준비  (0) 2017.03.31
      Linear Regression Analysis with Python #2  (0) 2017.03.31

        용어

      • 예측(Prediction)은 머신 러닝의 산물
        • 머신 러닝 : 데이터로부터 예측하는 방법을 배우는 것


      • 예측 모델(Predictive Model)
        • 클릭, 구매, 거짓말, 사망과 같은 한 개인의 행위를 예측하는 메커니즘
        • 개인의 특성을 입력받아서 '예측 점수'를 출력
        • 이 점수가 높을 수록 그 개인은 예측된 행위를 할 가능성이 높다


      • 예측 효과(The predicton Effect)
        • 작은 예측이 커다른 효과를 발휘한다.
        • 작은 예측에 의한 통찰, 즉 선택을 올바른 방향으로 향하게 하는 작은 예지적 넛지(prognostic nudge)로부터 가치가 발생한다.


      • 예측 분석(Predictive Analytics, PA)
        • 더 나은 의사결정을 내리기 위해 개인들의 미래 행위를 예측하고자 경험(데이터)으로부터 배우는 기술(technology)
        • 예측 분석은 컴퓨터 과학과 통계학에 근거를 두고 있음


      • 예측 목표(Prediction Goal)
        • '마케팅 홍보물'이 '그 고객'을 설득할 수 있을 것인가?
        • 영향을 예측하는 것은 예측에 영향을 준다.
        • 예측 분석은 행위를 예측하는 것으로부터 '행위에 대한 영향'을 예측하는 것으로 대폭 변화한다.


      • 예측 분석은 전망(forecasting)과는 다른 개념
        • 전망 : 거시적 차원에서 집합적 예측을 하는 것으로 예를 들어,
          • 경제가 어떻게 될 것인가?
          • 어느 대통령 후바가 오하이오에서 더 많은 표를 얻을 것인가?
          • 네브래스카 주에서 다음 달에 아이스크림이 얼마나 팔릴지에 대한 합계 숫자를 추산하는 것
        • 예측 분석
          • 네브래스카 주민들 중 어떤 '개인'이 손에 아이스크림 콘을 들고 있게될 가능성이 가장 높은가를 말해주는 것


      • 앙상블 효과(The Ensemble Effect)
        • 예측 모델들이 하나의 앙상블로 합쳐지면서 각자의 한계를 보완하게 되어 전체로서의 앙상블은 자신의 구성요소 모델들보다 더 정확하게 예측할 가능성이 높아진다.


      • 의사결정을 '데이터에 근거'하여 내리며, 한 사람의 '직관'에 덜 의존하는 추세가 늘어나고 있으며, 예측 분석은 이러한 추세를 선도하고 있다.


      • 데이터 효과(The Data Effect)
        • 데이터는 언제나 예측적이다.
        • 기업이 예측 분석을 할 대 항상 하는 가정


      • 예측 분석은 다음과 같은 단어들을 통칭하는 말이다.
        • 데이터 분석
        • 빅데이터
        • 비즈니스 인텔리전스
        • 데이터 과학


      • 향상 모델(Uplift Model)
        • 어떤 조치를 실행했을 경우와 그렇지 않은 경우를 비교하여 그런한 조치가 한 개인의 행위에 얼마나 영향을 미칠 것인지 예측하는 모델


      • 향상 점수(Uplift Score)
        • '어떤 조치가 또 다른 조치와 비교할 때 우리가 원하는 결과를 발생시킬 가능성이 얼마나 더 많은가?'라는 질문에 대답한다.
        • 한 기업이 마케팅 조치나 행동을 선택하는 데 가이드를 제공하며 각 개인에 대해서 무엇을 해야할지 또는 무슨 말을 해야 할지를 기업에게 알려준다.


      예측은 비즈니스를 최적화한다

      • 구글과 아마존을 포함하여 인터넷 시대를 이끄는 기업들은 머신 러닝 기반의 예측 모델에 의존하는 비즈니스 모델을 가지고 있다.(Prof. Vasant Dhar, 뉴욕 대학 스턴(Stern) 경영대학원
      • The powerhouse organizations of the Internet era, which include Google and Amazon... have business models that hinge on predictive models based on machine learning.


      • 예측 분석을 시작한다는 것은 예측에 따라 행동한다는 것을 의미한다. 또한 데이터로부터 학습하고 발견한 것을 현실에 적용한다는 것을 뜻한다. 이제 많은 사람들이 예측을 행동으로 옮기고 있다. 그렇게 하지 않으면 경쟁자를 이길 수 없을 것이다.


      • 예측 분석을 응용하는 사례들이 홍수처럼 쏟아져 나오고 있다. 다음과 같은 몇 가지 핵심적 요소들이 댐의 수문을 열어젖혔다.
        • 엄청나게 증가하는 데이터량
        • 기업들이 예측 기술을 제대로 평가하고 수용하고 통합할 줄 알게된 문화적 변화
        • 기업에 예측 분석을 제공해 주는 소프트웨어 솔루션의 개선


      예측 기술의 활용 방안

      • 예측 분석의 응용은 다음과 같이 규정할 수 있다.
        • 무엇을 예측하는가?
          • 예측하고자 하는 행위의 종류
          • 행동, 사건, 발생 등
        • 무엇을 할 것인가?
          • 예측에 기반한 의사결정
          • 각각의 예측에 따라 기업이 취하는 행동


      • 예측 분석을 도입하는 것은 기업을 위한 초인간적 위기감지 팀을 구성하는 것과 같다.
      • 기업이 내리는 모든 의사결정과 모든 조치들은 위험을 동반한다.
      • 모든 함정을 미리 발견하고 그것을 피해 감으로써 얻는 예방적 이익이 상상이상으로 전통적인 기업 리스크 관리가 세세한 위험 요소를 해결하는 것으로 확대되고 있다.
      • 미래를 살짝 엿볼 수 있다는 것은 당신에게 선택권이 주어진다는 뜻으로, 당신에게 강력한 힘을 제공한다.
        • 때로는 범죄, 손실, 질병 등 불가피해 보이는 일들을 회피하고자 무슨 조치를 취할 것인지에 대한 의사결정을 분명하게 내려야 한다.
        • 긍정적 측면에서 보면 수요를 미리 예견할 경우 당신은 그것을 이용하기 위해 조치를 취할 수 있다.
        • 어느 쪽이든 예측은 의사결정을 내리는데 도움을 준다.


      • 만약 당신이 '감지하고 추측하고 반응한다'는 기존의 보안정보 패러다임에서 '예측하고 계획하고 행동한다'는 패러다임으로 바꿀 수 있다면 어떻겠는가? - Christopher Fulcher 경사, 뉴저지 주 바인랜드 경찰서 최고기술책임자(CTO)


      Fraud Detection

      • 무엇을 예측하는가?
        • 어떤 거래 또는 대출신청, 보조금 지급, 경비 처리, 환불 등이 사기인가?
      • 무엇을 할 것인가?
        • 사기일 가능성이 높다고 예측된 거래와 신청에 대해서 감사를 진행한다.


      • 사기범들은 뛰어나면서도 민첩하다. 낡은 사기 술책이 먹히지 않게 되자마자 금세 새로운 사기 술책을 고안해 낸다. - Steven Levitt and Stephen Dubner, 슈퍼 괴짜 경제학(Super Freakonomics)
      • 사기 감지 능력의 발전은 범죄자들로 하여금 더 스마트한 테크닉을 설계하여 스스로의 범죄능력을 개선시킨다.
      • 사기 행위는 예측 모델의 레이더 밑으로 잠입하면서 눈에 띄지 않기 위해 애쓴다.


      Prediction Variables

      • 최근성(recency)
        • 한 개인이 가장 최근에 구매한 행위를 한 시점으로부터(또는 범죄를 저지르거나 의학적 징후를 보인 떄로부터) 몇 주가 지났는지를 숫자로 표현
        • 머지않은 미래에 그 사람이 그 일을 다시 할 가능성이 얼마나 되는지를 나타냄
        • 마케팅 접촉이든, 범죄 수사든 가장 '최근'에 활동적이었던 사람부터 주목하는 것이 합리적
      • 빈도(frequency)
        • 한 개인이 그 행동을 몇 번이나 했는지를 가리킴
        • 어떤 행위를 자주 한 사람은 그 행위를 또다시 할 가능성이 높다.
      • 행위 예측 변수
        • 우리가 측정하고자 하는 것은 항상 특정한 행위이며, 실제로 행위가 행위를 예측하게 해준다.
        • 장폴 사르트르 - 한 사람의 행동이 그의 진정한 자아를 말해 준다.


      Most discussions of decision-making assume that only senior executives make decisions or that only senior executives decisions matter. This is a dangerous mistake. - Peter F. Drucker

      의사결정은 오직 고위 경영진만 하는 일이라고 생각하거나 또는 오직 경영진의 결정만이 중요하다고 가정하는 것은 매우 위험한 오류이다. - 피터 드러커

      • 예측 분석은 마이크로 리스크가 누적되는 것을 막아주는 해독제 역할을 한다.
        • 예측 분석은 고도의 경각심을 가지고 각각의 마이크로 리스크를 찾아내서 선견지명적인 표시를 해줌으로써 그에 대한 조치를 취할 수 있게 해준다.
        • 리스크 점수는 예측 분석의 연료라고 할 수 있는 예측 모델링 방법론과 대체로 동일한 방식으로 만들어 진다.


      리스크를 극복하는 데 있어서 예측 분석으로 얻을 수 있는 이점

      • 가정 : 수천 건의 융자를 가지고 있는 은행을 운영하고 있는데 그 중 10%는 회수할 수 없다
        • 어떤 건은 높은 리스크 점수가 매겨지고, 어떤 것은 낮은 리스크 점수가 매겨진다.
        • 이런 리스크 점수들이 제대로 잘 매겨져서 더 위험하다고 예측된 상위 50%의 대출 건들로부터 평균보다 2배 이상 더 많은 채무불이행 상황이 발생한다고쳐보자
        • 보다 현실적으로 평균 채무불이행 비율보다 70% 가량 더 많을 것이라고 하자
      • 이런 포트폴리오를 반으로 쉽게 나눌 수 있다.
        • 한쪽은 채무불이행률이 (평균 10%보다 70% 더 많은) 17%이고
        • 나머지 한쪽은 채무불이행률이 3%이다(이 둘을 합친 평균값이 10%이므로 한쪽의 17%를 제외한 나머지 한쪽은 3%이다)
      • 비즈니스가 2개의 완전히 다른 세상으로 구분된다
        • 하나는 안전한 세상이고
        • 다른 하나는 위험한 세상이다
      • 예측 분석이 데이터로부터 학습한 바를 통해서 미래라고 하는 커다른 불확실성으로부터 위험한 요소들을 걸러낼 수 있을 때만이 원하던 바를 이룰 수 있다


      과거와 현대의 경계를 가르는 혁명적 사고는 바로 리스크를 다룰 줄 알게 되었다는 것이다. 거기엔 미래란 단순히 신들의 변덕이 아니며, 사람들이 자연에 순응만 하는 것은 아니라는 뜻이 담겨있다. 인간이 이러한 경계선을 넘어설 방법을 발견하기 전까지는 미래란 단지 과거의 거울이었거나 예언자나 점쟁이의 음산한 영역에 불과했다. - Peter Bernstein, Against the Gods: The Remarkable Story fo Risk


      • 데이터를 해독하여 리스크를 계량화함으로써 리스크를 효율적으로 관리하는 행위가 바로 비즈니스의 핵심


      리스크를 극복하는 방법

      • 나쁜 일들이 발생할 것에 대비하기 위해서 예측 분석을 적용
        • 개별적 사안들에 대해서 부정적결과가 발생할 확률을 가지고 평점을 매기는 것
      • 예측 분석(Predictive Analytics, PA)
        • 더 나은 의사결정을 목적으로 개별 사안(사람)의 미래 행위를 예측하기 위해서 경험(데이터)으로부터 학습하는 기술
      • 기업이 예측 분석을 통해서 효과적으로 배우게 되는 것
        • 어떻게 마이크로 리스크들을 예견하여 위험을 감소시킬 것인가?
      • 예측 분석(Predictive Analytics, PA)
        • 마이크로 리스크를 관리하기 위해서 경험(데이터)로부터 배우는 기술
      • 모든 사업은 위험이 따른다. 나쁜 행위로 인한 리스크를 측정하고 예측함으로써 이득을 얻을 수 있다.
        • 이를 통해 예측 분석은 리스크를 기회로 전환시킨다.


      대개의 경우에 평균은 평범하다. 그러나 의사결정을 할 때 평균은 대체로 우월하다. - James Surowiecki, 대중의 지혜(The Wisdom of Crowds)



      5가지 예측 효과

      예측 효과(The Prediction Effect)

        • 작은 예측이 커다란 효과를 발휘한다.

      데이터 효과(The Data Effect)

        • 데이터는 언제나 예측적이다.

      귀납 효과(The Induction Effect)

        • 머신 러닝에는 예술적 창의력도 작용한다.
        • 부분적으로는 인간의 비공식적 창의력에 의해서 설계된 전략이 컴퓨터 프로그램으로 구현되면서 새로운 사례들에 대해 우수한 효과를 나타내는 예측 모델을 개발할 수 있도록 도와주었다.

      앙상블 효과(The Ensemble Effect)

        • 예측 모델들이 하나의 앙상블로 합쳐지면서 각자의 한계를 보완하게 되어 전체로서의 앙상블은 자신의 구성요소 모델들보다 더 정확하게 예측할 가능성이 높아진다.

      설득 효과(The Persuation Effect)

        • 비록 눈으로 인지할 수 없지만 한 개인에 대한 설득은 향상 모델링을 통해서 예측할 수 있다.
        • 향상 모델링이란 경쟁하는 2개의 조치들로부터 발생한 결과들을 기록한 서로 다른 학습용 데이터 집합들을 예측을 목적으로 모델링하는 것이다.





      'Predictive Analytics' 카테고리의 다른 글

      단순선형회귀  (0) 2019.09.19
      대표적인 예측 분석 사례  (0) 2018.04.20
      Python 준비  (0) 2017.03.31
      Linear Regression Analysis with Python #2  (0) 2017.03.31
      Linear Regression Analysis with Python #1  (0) 2017.03.31

      python.org에서 다운받은 python으로 해보려했는데 scipy 패키지를 설치하는데 결국 실패했다. 이거때문에 하루를 소비했다. ㅠㅠ

      그래서 결국 Anaconda Python을 설치했다. 향후 TensorFlow를 사용할 것이기 때문에 3.5버전(이 글을 쓰는 시점에서 python의 최신 버전은 3.6이다.)을 설치했다. 에디터는 손에 익은 PyCharm Edu 버전을 사용한다.


      'Predictive Analytics' 카테고리의 다른 글

      단순선형회귀  (0) 2019.09.19
      대표적인 예측 분석 사례  (0) 2018.04.20
      Predictive Analytics  (0) 2018.04.16
      Linear Regression Analysis with Python #2  (0) 2017.03.31
      Linear Regression Analysis with Python #1  (0) 2017.03.31

      http://forensics.tistory.com/1에서는 숫자로만 분석을 했었다. 숫자로만 판단하기에는 다소 어려움이 있기 때문에 그래프를 이용하여 시각적인 분석을 해보자.


      그래프를 그리기 위해서 matplotlib 모듈을 이용한다.



      matplotlib를 이용하면 기본값으로 영어 폰트가 설정되어 있어 한글이 표현되지 않는다.

      그래서 matplotlib의 환경변수를 변경하여 한글이 출력되도록 아래와 같이 한글폰트를 지정해야만 한다.




      위의 코드를 실행하면 다음과 같은 그래프를 얻을 수 있다. 파란색 점을 다 지나는 곡선을 찾는 것이 우리의 목표가 되는 것이다.





      'Predictive Analytics' 카테고리의 다른 글

      단순선형회귀  (0) 2019.09.19
      대표적인 예측 분석 사례  (0) 2018.04.20
      Predictive Analytics  (0) 2018.04.16
      Python 준비  (0) 2017.03.31
      Linear Regression Analysis with Python #1  (0) 2017.03.31

      + Recent posts