가설검정 :: Machine Learning with Python

가설검정

2019. 11. 22. 17:36

가설검정

통계적 가설검정(statistical hypothesis test): 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

통계적 가설검정은 연구자가 우현이 일어난 일에 속지 않도록 보호하기 위한 방법을 개발되었다.

사람은 임의성을 과소평가하는 경향이 있음

무작위 사건을 어떤 중요한 의미가 있는 패턴을 갖는 것으로 오해하는 경향이 있음

A/B 검정을 계획할 때, 일반적으로 가설을 염두에 두고 진행

적절하게 설정된 A/B 검정은 A와 B 사이에서 관찰된 차이를 다음 원인으로 설명 가능

우연한 대상 선정

A와 B의 진정한 차이

통계적 가설검정은 A그룹과 B그룹 사이에서 관찰되는 차이가 우연에 의해 발생한 것인지 평가하기 위해 A/B 검정 등의 무작위 실험을 포함하는 분석임

용어 정리

귀무가설 또는 영가설(null hypothesis): 우연 때문이라는가설

대립가설(alternative hypothesis): 증명하고자 하는 가설로 귀무가설과 대조되는 가설

일원검정(one-way test): 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정

이원검정(two-way test); 양 방향으로 우연히 일어날 확률을 계산하는 가설검정

가설검정의 절차

가설검정은 다음과 같이 총 5단계 절차를 거친다.

유의수준의 결정, 귀무가설과 대립가설 설정
검정통계량의 설정
기각역의 설정
검정통계량 계산
통계적인 의사결정

귀무가설

가설검정의 논리

사람은 실제로 우연히 일어난 일이지만, 흔하지 않다는 것에 주목하여 그것이 뭔가 의미가 있고 우연이 아닐 것이다라고 추정하는 경향을 가짐

따라서 실험에서 얻은 그룹 간의 차이가 임의성을 통해 얻을 수 있는 합리적인 수준과는 더 극단적으로 달라야 한다는 증거를 제시할 수 있어야 함

가설검정의 기본 가정 = 귀무가설

그룹들이 보여주는 결과는 서로 같으며, 그룹 간의 차이는 우연에 의한 결과이다.

귀무가설이 틀렸다는 것을 입증하여, A그룹과 B그룹 간의 차이가 우연에 의한 것이 아니라는 것을 보여주는 귀류법을 사용한다.

대립가설

가설검정은 귀무가설과 대립가설을 사용하며, 대립가설의 예로는 다음과 같다

귀무가설: A그룹과 B그룹의 평균에는 차이가 없다.
대립가설: A그룹과 B그룹은 다르다. 즉, 한쪽의 평균이 크거나 작다

귀무가설과 대립가설은 모든 가능성을 설명할 수 있어야 한다.

일원/이원 가설검정

A/B 검정을 통해 기존에 기본으로 사용하던 A와 비교하여 새로운 B가 어떠한지 검증한다고 생각해보자.

가정: 이 경우 B가 월등히 좋다는 것으로 입증되지 않는 이상 A를 계속 사용한다.

이런 상황에서 우연에 의해 B가 좋은 것으로 선택되지 않도록 가설검정을 해야한다.

B가 좋다는 것을 확실하게 입증하지 못하면 A를 계속 하용하면 되기 때문에 우연에 의해 속을 일은 없게 된다.

이런 경우 방향성을 생각한 대립가설이 필요하다.

귀무가설: A가 B보다 좋다.
대립가설: B가 A보다 좋다.

어느 쪽으로도 속지 않도록 가설검정을 하려면 대립가설은 양방향이 되어야 한다.

대립가설: A는 B와 다르며, 더 좋거나 나쁠 수 있다.

저작자표시

'Data Science with Python' 카테고리의 다른 글

기술 통계량(Descriptive Statistics) (0)	2020.06.16
재표본 추출 (0)	2019.11.25
A/B 검정 (0)	2019.11.22
1. Data Science in a Big Data World (0)	2018.04.06

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바