정규분포 :: Machine Learning with Python

정규분포

2019. 9. 17. 14:21

정규분포

오차(error): 데이터와 예측값 또는 평균과의 차이

표준화(정규화)하다(standardize): 데이터 값에서 평균을 빼고 표준편차로 나눈다.

\(z\) 점수(score): 개별 데이터를 정규화한 결과

표준정규분포(standard normal distribution): 평균이 \(0\)이고, 표준편차가 \(1\)인 정규분포

QQ 그림(plot): 표본분포가 정규분포에 얼마나 가까운지를 보여주는 그림

종 모양의 정규분포(normal distribution)는 전통적인 통계의 상징

표본통계량 분포가 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었음

정규분포에서 데이터의 \(68\%\)는 평균의 표준편차 안에 있으며, \(95\%\)는 표준편차의 두 배수 안에 있다.

대부분의 데이터가 정규분포를 따르기 때문에, 즉 이게 정상이기 때문에 정상적인(normal) 분포라고 하는 것이 아니다
실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지않는다.

표본분포에서 대부분의 통계량이 정규분포를 따른다는 점에서 정규분포가 유용한 것이다.

일반적으로 정규분포 가정은 경험적 확률분포나 부트스트랩 분포를 구할 수 업는 경우에 사용할 수 있는 최후의 수단이다.

표준정규분포와 QQ 그림

표준정규분포: \(x\)축의 단위가 평균의 표준편차로 표현되는 정규분포

정규화(normalization) 또는 표준화(standardization): 데이터를 표준정규분포와 비교하려면 데이터에서 평균을 뺀 후, 표준편차로 나누는 것

\(z\)-점수: 정규화한 값

\(z\)-분포: 정규분포의 다른 이름

QQ 그림: 표본이 정규분포에 얼마나 가까운지를 시각적으로 판별하는 데 사용

\(z\)-점수를 오름차순으로 정렬하고 각 값의 \(z\)-점수를 \(y\)축에 표시

\(x\)축은 정규분포에서의 해당 분위수

단위: 데이터가 표준화되었기 때문에, 평균으로부터 떨어진 데이터의 표준편차 수

점들이 대략 대각선 위에 놓이면 표본분포가 정규분포에 가까운 것으로 볼 수 있다.

저작자표시

'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

t-분포 (0)	2019.09.17
긴 꼬리 분포 (0)	2019.09.17
신뢰구간 (0)	2019.09.17
부트스트랩 (0)	2019.09.17
표준오차 (0)	2019.09.17

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바