불러온 Plotly를 아래와 코드로 시험합니다.

'Regression Analysis' 카테고리의 다른 글

선형모델 기초  (0) 2019.10.01

용어정리

  • 응답변수(response variable) 또는 목표변수(target variable): 예측 결과로 소문자 \(y\)를 표기
  • 예측변수(predictor variable) 또는 속성(attribute), 특성(feature): 전제 조건으로 하나일 경우에는 \(x\)로, 많은 경우에는 \(\mathbf{X}\)로 표기
    • \(\mathbf{X}\)를 사용하면 행렬 표기법으로 표현 가능
    • \(\mathbf{y}\)는 응답벡터(열벡터)가 됨

선형모델

  • 행렬 기호 표기법을 사용해 \(\mathbf{X}\)를 오차 없이 또는 허용 가능한 오차 범위의 \(\mathbf{y}\)로 변환할 수 있는 함수를 다음과 같이 정의 가능
\begin{eqnarray} \mathbf{y} = h(\mathbf{X})\tag{1}\end{eqnarray}
  • 함수를 정의하고 특정 매개변수를 가진 특정 알고리즘과 특정 데이터로 이루어진 \(\mathbf{X}\) 행렬을 사용한다면, 식 \((1)\)을 가설(hypothesis)라고 할 수 있다.
  • 목표변수 \(\mathbf{y}\)를 예측하는 데 있어 어느 정도 잘 작동하는지 테스트할 수 있는 준비된 가설이라 볼 수 있다.

예측변수

  • 예측변수를 저장하기 위해 일반적으로 다음과 같이 \(m\)개의 사례(또는 관찰) 데이터를 가진 행렬 \(\mathbf{X}\)를 다음과 같이 표기한다.
\begin{eqnarray} \mathbf{X} = \left[ \begin{array}{c} x_1\\ x_2 \\ \vdots \\ x_m \end{array}\right]\end{eqnarray}
  • 실제 통용되는 데이터는 더 복잡한 행렬로 표현할 수 있으므로 다음과 같이 표기한다.

\begin{eqnarray} \mathbf{X} = \left[ \begin{array}{cccc} x_{1,1} & x_{1,2} & \ldots & x_{1,n} \\ x_{2,1} & x_{2,2} & \ldots & x_{2,n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m,1} & x_{m,2} & \ldots & x_{m,n} \\  \end{array}\right]\end{eqnarray}


예측변수와 응답변수의 관계

  • 과거의 관찰로부터 얻은 정보는  \(\mathbf{X}\)와 \(\mathbf{y}\) 사이의 관계를 설정하는 데 중요한 역할을 한다.
  • 실제로는 \(\mathbf{X}\)와 \(\mathbf{y}\) 사이에 가능한 연관성을 모두 알 수가 없다.
    • 특정 \(\mathbf{X}\)에 대해서만 관찰했기 때문에 주어진 \(\mathbf{X}\)에 대한 \(\mathbf{y}\)의 경험은 표본 편향(sampling bias)이다..
    • 과거에 전혀 발생하지 않았기 때문에 어떤 특정한 \((\mathbf{X}, \mathbf{y})\)의 연관성을 발견할 수 없다. 그러나 향후 연관성을 발견할 가능성이 있다.
  • 지도 알고리즘(supervised algorithm): 배치(batch)라고 하는 대규모 과거 데이터 표본을 가지고 학습
  • 능동학습(active learning): 대량의 데이터를 무시하고 스스로 학습하기에 가장 유용한 표본을 선택하여 학습
  • 온라인학습(online learninig): 환경이 급변하는 경우에는 예측변수와 응답변수 간의 새로운 관계를 지속적으로 파악하면서 데이터를 사용 가능한 상태로 스트리밍해 학습


'Regression Analysis' 카테고리의 다른 글

보스턴 주택가격 예측  (0) 2019.10.01

+ Recent posts