정규분포

  • 오차(error): 데이터와 예측값 또는 평균과의 차이
  • 표준화(정규화)하다(standardize): 데이터 값에서 평균을 빼고 표준편차로 나눈다.
  • \(z\) 점수(score): 개별 데이터를 정규화한 결과
  • 표준정규분포(standard normal distribution): 평균이 \(0\)이고, 표준편차가 \(1\)인 정규분포
  • QQ 그림(plot): 표본분포가 정규분포에 얼마나 가까운지를 보여주는 그림


  • 종 모양의 정규분포(normal distribution)는 전통적인 통계의 상징
  • 표본통계량 분포가 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었음
  • 정규분포에서 데이터의 \(68\%\)는 평균의 표준편차 안에 있으며, \(95\%\)는 표준편차의 두 배수 안에 있다.


  • 대부분의 데이터가 정규분포를 따르기 때문에, 즉 이게 정상이기 때문에 정상적인(normal) 분포라고 하는 것이 아니다

  • 실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지않는다.
  • 표본분포에서 대부분의 통계량이 정규분포를 따른다는 점에서 정규분포가 유용한 것이다.
  • 일반적으로 정규분포 가정은 경험적 확률분포나 부트스트랩 분포를 구할 수 업는 경우에 사용할 수 있는 최후의 수단이다.

표준정규분포와 QQ 그림

  • 표준정규분포: \(x\)축의 단위가 평균의 표준편차로 표현되는 정규분포
  • 정규화(normalization) 또는 표준화(standardization): 데이터를 표준정규분포와 비교하려면 데이터에서 평균을 뺀 후, 표준편차로 나누는 것
  • \(z\)-점수: 정규화한 값
  • \(z\)-분포: 정규분포의 다른 이름
  • QQ 그림: 표본이 정규분포에 얼마나 가까운지를 시각적으로 판별하는 데 사용
    • \(z\)-점수를 오름차순으로 정렬하고 각 값의 \(z\)-점수를 \(y\)축에 표시
    • \(x\)축은 정규분포에서의 해당 분위수
    • 단위: 데이터가 표준화되었기 때문에, 평균으로부터 떨어진 데이터의 표준편차 수
    • 점들이 대략 대각선 위에 놓이면 표본분포가 정규분포에 가까운 것으로 볼 수 있다.

'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

t-분포  (0) 2019.09.17
긴 꼬리 분포  (0) 2019.09.17
신뢰구간  (0) 2019.09.17
부트스트랩  (0) 2019.09.17
표준오차  (0) 2019.09.17

+ Recent posts