통계학의 가장 일반적인 목표
- 변수 \(X\) 또는 \(X_1, X_2, \ldots, X_n\)가 변수 \(Y\)와 관련이 있는가?
- 있다면 어떤 관련이 있는가?
- 이 관계를 이용해 \(Y\)를 예측할 수 있는가?
단순선형회귀
- 종속변수(dependent variable): 예측하고자 하는 변수
- 응답변수 또는 반응변수(response variable), \(Y\)-변수, 목표(target), 출력(outcome)
- 독립변수(independent variable) 또는 예측변수(predictor variable): 응답값을 예측하기 위해 사용되는 변수
- \(X\)-변수, 특성(feature), 속성(attribute)
- 레코드(record): 한 특정 경우에 대한 입력과 출력을 담고 있는 벡터
- 행(row), 사건(case), 예시(instance), 예제(example)
- 절편(intercept): 회귀직선의 절편
- \(x=0\)일 때의 예측값으로 \(b_0\) 또는 \(\beta_0\)로 표기
- 회귀계수(regression coefficient): 회귀직선의 기울기
- 기울기(slope), 모수 추정값(parameter estimate), 가중값(weight)
- \(b_1\) 또는 \(\beta_1\)로 표기
- 적합값(fitted value) 또는 예측값(predicted value): 회귀직선으로부터 얻은 추정값
- 잔차(residual) 또는 오차(error): 관측값과 예측값과의 차이
- 최소제곱(least square): 잔차의 제곱합을 최소화하여 회귀를 적합하는 방법
- 단순선형회귀(simple linear regression): 한 변수와 다른 변수의 크기 사이에 어떤 관계가 있는지 보여주는 것
- \(X\)가 증가하면 \(Y\)도 증가
- \(X\)가 증가하면 \(Y\)는 감소
- 상관관계(correlation): 두 변수 사이의 전체적인 관점에서 관련 강도를 측정
- 회귀(regression): 관계 자체를 정량화하는 방법
회귀식
- 단순선형회귀를 사용하면 \(X\)가 얼마만큼 변하면 \(Y\)가 어느 정도 변하는지를 정확히 추정 가능
- 상관계수는 \(X\)와 \(Y\)의 값이 바뀌어도 상관없이 두 변수간의 관련 강도를 측정할 수 있다
- \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 상관계수(correlation coefficient)
\begin{eqnarray} \rho_{XY} &=& \frac{\textrm{cov}(X,Y)}{s_Xs_Y}\\ &=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2}}\end{eqnarray}
- 회귀에서는 다음 회귀식(regression equation)으로 선형관계(linear relationship)를 사용해 변수 \(X\)로부터 변수 \(Y\)를 예측하고자 한다.
\begin{eqnarray} Y &=& b_0 + b_1X\\ Y&=&\beta_0+\beta_1X \end{eqnarray}
- 우리가 흔히 알고있는 직선의 방정식 \(y=ax+b\)와 쓰는 순서가 다르다
- \(b_0\): 절편
- \(b_1\): 기울기 또는 계수
- \(Y\): \(X\)의 값에 따라 달라지므로 종속변수나 응답변수 또는 목표벡터
- \(X\): 독립변수나 예측변수 또는 피처벡터
회귀식 예제
- 노동자가 면진에 노출된 연수(Exposure)와 폐활량(PEFR) 사이에 어떤 관계가 있을까?
- 두 데이터의 산점도만 보고서는 어떤 관계가 있다고 딱히 뭐라 말하기가 어렵다.
- 단순선형회귀는 예측변수 Exposure에 대한 함수로 응답변수 PEFR을 예측하기 위한 가장 최선의 직선을 찾는다.
\begin{eqnarray} \textrm{PEFR} = b_0 +b_1\cdot\textrm{Exposure}\end{eqnarray}
- 회귀분석 모델링 R code
> model <- lm(PEFR ~ Exposure, data=lung) > model Call: lm(formula = PEFR ~ Exposure, data = lung) Coefficients: (Intercept) Exposure 424.583 -4.185
- linear model
\begin{eqnarray} \textrm{PEFR} = 424.583 - 4.185\cdot\textrm{Exposure}\end{eqnarray}
'Predictive Analytics' 카테고리의 다른 글
모델 평가 (0) | 2019.09.24 |
---|---|
최소제곱법 (0) | 2019.09.24 |
대표적인 예측 분석 사례 (0) | 2018.04.20 |
Predictive Analytics (0) | 2018.04.16 |
Python 준비 (0) | 2017.03.31 |