상관분석 Correlation Analysis

  • 두 변수 간에 어떤 선형적 관계를 갖는지 분석하는 방법
  • 두 변수는 서로 관계가 없거나 상관된 관계를 가질 수 있다.
  • 상관관계(correlation) 또는 상관계수(correlation coefficient): 두 변수 간의 관계의 강도
    • 단위는 모상관계수 \(\rho\)를 사용하며 \(-1\)애서 \(+1\)까지의 범위를 가짐
    • 두 변수 간의 연관된 정도를 나타낼 뿐 인과관계를 설명하지는 않는다
    • 두 변수 간에 원인과 결과의 인과관계가 있는지를 확인하기 위해서는 회귀분석(regression analysis)을 통해 인과관계의 방향이나 정도, 그리고 수학적 모델을 확인할 수 있다

피어슨 상관계수 Pearson correlation coefficient

  • 두 변수 간의 관련성을 구하기 위해 보편적으로 사용하여 공분산을 이용해 계산
  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)일 때 \(X\)의 분산(variance)
\begin{eqnarray} S_X^2 = \frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n}\end{eqnarray}
  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)일 때 \(X\)의 표준편차(standard deviation)
\begin{eqnarray} s_X = \sqrt{\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n}}\end{eqnarray}
  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 공분산(covariance)

\begin{eqnarray} \textrm{cov}(X,Y) = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n}\end{eqnarray}

  • \(X=\{x_1, x_2, \ldots, x_n\}\)의 평균이 \(\bar{x}\)이고, \(Y=\{y_1, y_2, \ldots, y_n\}\)의 평균이 \(\bar{y}\)일 때 \((X,Y)\)의 상관계수(correlation coefficient)

\begin{eqnarray} \rho_{XY} &=& \frac{\textrm{cov}(X,Y)}{s_Xs_Y}\\ &=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2}}\end{eqnarray}

상관분석 결과를 해석할 때 주의할 점

  • 두 변수 중 한 변수가 증가(감소)할 때 다른 변수가 증가(감소)하더라도 이 두 변수 간에 영향관계가 없다고 할 수 없는 이유
  • The third-variable problem
    • 측정되거나 측정되지 않은 다른 변수들이 결과에 영향을 줄 수 있다
  • Direction of Casuality
    • 상관계수는 인과관계의 방향을 나타내지 않음
    • 서울 시내의 자동차 수와 교통사고 발생 수의 상관관계
      • 교통사고의 직접적인 원인이 자동차 수의 증가라고 판단할 수 없음
      • 도로사정, 초보 운전자의 증가 등 다른 요인이 있을 수 있음
    • 아버지와 아들 체중의 상관관계
      • 체중의 유전론이 확증되지 않았음
      • 식습관이 원인일 수 있음

 

'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

표본분포  (0) 2019.09.11
표본추출의 중요성  (0) 2019.09.04
데이터 분포 탐색하기  (0) 2019.09.03
백분위수에 기반한 변이 추정  (2) 2019.09.03
자유도 degree of freedom  (0) 2019.09.03

+ Recent posts