• 응답변수와 예측변수 간의 관계가 반드시 선형일 필요는 없다.
  • 약물 복용량에 따른 반응은 일반적으로 비선형성을 띤다.
    • 복용량을 두 배로 늘린다고 두 배의 반응이 나타나지는 않는다.
  • 제품에 대한 수요 역시 어떤 시점에서는 포화 상태가 되기 쉽다 보니 , 마케팅 비용은 선형함수가 아니다.
  • 비선형 효과를 회귀분석에 담기 위해 회귀모형을 확장하는 몇 가지 방법이 있다.
    • 다항식 회귀
    • 스플라인 회귀
    • 일반화가법모델(GAM)
    • 시계열데이터인 경우 AR, MA, ARIMA 등
    • 머신러닝 모델

다항회귀

  • 다항회귀(multilinear regression):  회귀식에 다항 항을 포함한 것
  • 예를틀변 응답변수 \(Y\)와 예측변수 \(X\) 사이의 이차 회귀는 다음과 같은 식으로 표현할 수 있다.
\begin{eqnarray} Y = b_0 + b_1X + b_2X^2 + \varepsilon \end{eqnarray}

  • 다항회귀는 poly 힘수를이용해 구할수 있다.
    • 킹 카운티 주택 데이터로 구한 SqFtToLiving에 대해 이차 다항식을 적합하는 과정
      • poly(SqFtToLiving, 2)1: 일차 항(선형 항)
      • poly(SqFtToLiving, 2)2: 이차 항

> house <- read.csv('house_sales.csv', sep='\t') > house_98105 <- house[house$ZipCode == 98105,] > lm(AdjSalePrice ~ poly(SqFtTotLiving, 2) + SqFtLot + BldgGrade + Bathrooms + Bedrooms, data=house_98105) Call: lm(formula = AdjSalePrice ~ poly(SqFtTotLiving, 2) + SqFtLot + BldgGrade + Bathrooms + Bedrooms, data = house_98105) Coefficients: (Intercept) poly(SqFtTotLiving, 2)1 poly(SqFtTotLiving, 2)2 SqFtLot -402530.47 3271519.49 776934.02 32.56 BldgGrade Bathrooms Bedrooms 135717.06 -1435.12 -9191.94


    • 편잔차그림


'Predictive Analytics' 카테고리의 다른 글

일반화가법모델  (0) 2019.10.01
스플라인  (0) 2019.10.01
회귀 진단: 가설 검정  (0) 2019.09.27
회귀식 해석  (0) 2019.09.27
회귀에서의 요인변수  (0) 2019.09.27

+ Recent posts