정규분포
- 오차(error): 데이터와 예측값 또는 평균과의 차이
- 표준화(정규화)하다(standardize): 데이터 값에서 평균을 빼고 표준편차로 나눈다.
- \(z\) 점수(score): 개별 데이터를 정규화한 결과
- 표준정규분포(standard normal distribution): 평균이 \(0\)이고, 표준편차가 \(1\)인 정규분포
- QQ 그림(plot): 표본분포가 정규분포에 얼마나 가까운지를 보여주는 그림
- 종 모양의 정규분포(normal distribution)는 전통적인 통계의 상징
- 표본통계량 분포가 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었음
- 정규분포에서 데이터의 \(68\%\)는 평균의 표준편차 안에 있으며, \(95\%\)는 표준편차의 두 배수 안에 있다.
대부분의 데이터가 정규분포를 따르기 때문에, 즉 이게 정상이기 때문에 정상적인(normal) 분포라고 하는 것이 아니다
- 실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지않는다.
- 표본분포에서 대부분의 통계량이 정규분포를 따른다는 점에서 정규분포가 유용한 것이다.
- 일반적으로 정규분포 가정은 경험적 확률분포나 부트스트랩 분포를 구할 수 업는 경우에 사용할 수 있는 최후의 수단이다.
표준정규분포와 QQ 그림
- 표준정규분포: \(x\)축의 단위가 평균의 표준편차로 표현되는 정규분포
- 정규화(normalization) 또는 표준화(standardization): 데이터를 표준정규분포와 비교하려면 데이터에서 평균을 뺀 후, 표준편차로 나누는 것
- \(z\)-점수: 정규화한 값
- \(z\)-분포: 정규분포의 다른 이름
- QQ 그림: 표본이 정규분포에 얼마나 가까운지를 시각적으로 판별하는 데 사용
- \(z\)-점수를 오름차순으로 정렬하고 각 값의 \(z\)-점수를 \(y\)축에 표시
- \(x\)축은 정규분포에서의 해당 분위수
- 단위: 데이터가 표준화되었기 때문에, 평균으로부터 떨어진 데이터의 표준편차 수
- 점들이 대략 대각선 위에 놓이면 표본분포가 정규분포에 가까운 것으로 볼 수 있다.