상관분석 Correlation Analysis
- 두 변수 간에 어떤 선형적 관계를 갖는지 분석하는 방법
- 두 변수는 서로 관계가 없거나 상관된 관계를 가질 수 있다.
- 상관관계(correlation) 또는 상관계수(correlation coefficient): 두 변수 간의 관계의 강도
- 단위는 모상관계수 \(\rho\)를 사용하며 \(-1\)애서 \(+1\)까지의 범위를 가짐
- 두 변수 간의 연관된 정도를 나타낼 뿐 인과관계를 설명하지는 않는다
- 두 변수 간에 원인과 결과의 인과관계가 있는지를 확인하기 위해서는 회귀분석(regression analysis)을 통해 인과관계의 방향이나 정도, 그리고 수학적 모델을 확인할 수 있다
피어슨 상관계수 Pearson correlation coefficient
- 두 변수 간의 관련성을 구하기 위해 보편적으로 사용하여 공분산을 이용해 계산
- \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)일 때 \(X\)의 분산(variance)
\begin{eqnarray} S_X^2 = \frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n}\end{eqnarray}
- \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)일 때 \(X\)의 표준편차(standard deviation)
\begin{eqnarray} s_X = \sqrt{\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n}}\end{eqnarray}
- \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 공분산(covariance)
\begin{eqnarray} \textrm{cov}(X,Y) = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n}\end{eqnarray}
- \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 상관계수(correlation coefficient)
\begin{eqnarray} \rho_{XY} &=& \frac{\textrm{cov}(X,Y)}{s_Xs_Y}\\ &=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2}}\end{eqnarray}
상관분석 결과를 해석할 때 주의할 점
- 두 변수 중 한 변수가 증가(감소)할 때 다른 변수가 증가(감소)하더라도 이 두 변수 간에 영향관계가 없다고 할 수 없는 이유
- The third-variable problem
- 측정되거나 측정되지 않은 다른 변수들이 결과에 영향을 줄 수 있다
- Direction of Casuality
- 상관계수는 인과관계의 방향을 나타내지 않음
- 서울 시내의 자동차 수와 교통사고 발생 수의 상관관계
- 교통사고의 직접적인 원인이 자동차 수의 증가라고 판단할 수 없음
- 도로사정, 초보 운전자의 증가 등 다른 요인이 있을 수 있음
- 아버지와 아들 체중의 상관관계
- 체중의 유전론이 확증되지 않았음
- 식습관이 원인일 수 있음
'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글
표본분포 (0) | 2019.09.11 |
---|---|
표본추출의 중요성 (0) | 2019.09.04 |
데이터 분포 탐색하기 (0) | 2019.09.03 |
백분위수에 기반한 변이 추정 (2) | 2019.09.03 |
자유도 degree of freedom (0) | 2019.09.03 |