용어정리
- 예측변수(predictor variable) 또는 속성(attribute), 특성(feature): 전제 조건으로 하나일 경우에는 \(x\)로, 많은 경우에는 \(\mathbf{X}\)로 표기
- \(\mathbf{X}\)를 사용하면 행렬 표기법으로 표현 가능
- \(\mathbf{y}\)는 응답벡터(열벡터)가 됨
선형모델
\begin{eqnarray} \mathbf{y} = h(\mathbf{X})\tag{1}\end{eqnarray}
- 함수를 정의하고 특정 매개변수를 가진 특정 알고리즘과 특정 데이터로 이루어진 \(\mathbf{X}\) 행렬을 사용한다면, 식 \((1)\)을 가설(hypothesis)라고 할 수 있다.
- 목표변수 \(\mathbf{y}\)를 예측하는 데 있어 어느 정도 잘 작동하는지 테스트할 수 있는 준비된 가설이라 볼 수 있다.
예측변수
\begin{eqnarray} \mathbf{X} = \left[ \begin{array}{c} x_1\\ x_2 \\ \vdots \\ x_m \end{array}\right]\end{eqnarray}
- 실제 통용되는 데이터는 더 복잡한 행렬로 표현할 수 있으므로 다음과 같이 표기한다.
\begin{eqnarray} \mathbf{X} = \left[ \begin{array}{cccc} x_{1,1} & x_{1,2} & \ldots & x_{1,n} \\ x_{2,1} & x_{2,2} & \ldots & x_{2,n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m,1} & x_{m,2} & \ldots & x_{m,n} \\ \end{array}\right]\end{eqnarray}
예측변수와 응답변수의 관계
- 실제로는 \(\mathbf{X}\)와 \(\mathbf{y}\) 사이에 가능한 연관성을 모두 알 수가 없다.
- 특정 \(\mathbf{X}\)에 대해서만 관찰했기 때문에 주어진 \(\mathbf{X}\)에 대한 \(\mathbf{y}\)의 경험은 표본 편향(sampling bias)이다..
- 과거에 전혀 발생하지 않았기 때문에 어떤 특정한 \((\mathbf{X}, \mathbf{y})\)의 연관성을 발견할 수 없다. 그러나 향후 연관성을 발견할 가능성이 있다.
- 능동학습(active learning): 대량의 데이터를 무시하고 스스로 학습하기에 가장 유용한 표본을 선택하여 학습
- 온라인학습(online learninig): 환경이 급변하는 경우에는 예측변수와 응답변수 간의 새로운 관계를 지속적으로 파악하면서 데이터를 사용 가능한 상태로 스트리밍해 학습