가설검정

  • 통계적 가설검정(statistical hypothesis test): 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
  • 통계적 가설검정은 연구자가 우현이 일어난 일에 속지 않도록 보호하기 위한 방법을 개발되었다.
    • 사람은 임의성을 과소평가하는 경향이 있음
    • 무작위 사건을 어떤 중요한 의미가 있는 패턴을 갖는 것으로 오해하는 경향이 있음
  • A/B 검정을 계획할 때, 일반적으로 가설을 염두에 두고 진행
  • 적절하게 설정된 A/B 검정은 A와 B 사이에서 관찰된 차이를 다음 원인으로 설명 가능
    • 우연한 대상 선정
    • A와 B의 진정한 차이
  • 통계적 가설검정은 A그룹과 B그룹 사이에서 관찰되는 차이가 우연에 의해 발생한 것인지 평가하기 위해 A/B 검정 등의 무작위 실험을 포함하는 분석임


용어 정리

  • 귀무가설 또는 영가설(null hypothesis): 우연 때문이라는가설
  • 대립가설(alternative hypothesis): 증명하고자 하는 가설로 귀무가설과 대조되는 가설
  • 일원검정(one-way test): 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정
  • 이원검정(two-way test); 양 방향으로 우연히 일어날 확률을 계산하는 가설검정


가설검정의 절차

  • 가설검정은 다음과 같이 총 5단계 절차를 거친다.
    1. 유의수준의 결정, 귀무가설 대립가설 설정

    2. 검정통계량의 설정

    3. 기각역의 설정

    4. 검정통계량 계산

    5. 통계적인 의사결정


귀무가설

  • 가설검정의 논리
    • 사람은 실제로 우연히 일어난 일이지만, 흔하지 않다는 것에 주목하여 그것이 뭔가 의미가 있고 우연이 아닐 것이다라고 추정하는 경향을 가짐
    • 따라서 실험에서 얻은 그룹 간의 차이가 임의성을 통해 얻을 수 있는 합리적인 수준과는 더 극단적으로 달라야 한다는 증거를 제시할 수 있어야 함
  • 가설검정의 기본 가정 = 귀무가설
    • 그룹들이 보여주는 결과는 서로 같으며, 그룹 간의 차이는 우연에 의한 결과이다.
  • 귀무가설이 틀렸다는 것을 입증하여, A그룹과 B그룹 간의 차이가 우연에 의한 것이 아니라는 것을 보여주는 귀류법을 사용한다.

대립가설

  • 가설검정은 귀무가설과 대립가설을 사용하며, 대립가설의 예로는 다음과 같다
    • 귀무가설: A그룹과 B그룹의 평균에는 차이가 없다.
    • 대립가설: A그룹과 B그룹은 다르다. 즉, 한쪽의 평균이 크거나 작다
  • 귀무가설과 대립가설은 모든 가능성을 설명할 수 있어야 한다.

일원/이원 가설검정

  • A/B 검정을 통해 기존에 기본으로 사용하던 A와 비교하여 새로운 B가 어떠한지 검증한다고 생각해보자.
    • 가정: 이 경우 B가 월등히 좋다는 것으로 입증되지 않는 이상 A를 계속 사용한다.
    • 이런 상황에서 우연에 의해 B가 좋은 것으로 선택되지 않도록 가설검정을 해야한다.
    • B가 좋다는 것을 확실하게 입증하지 못하면 A를 계속 하용하면 되기 때문에 우연에 의해 속을 일은 없게 된다.
    • 이런 경우 방향성을 생각한 대립가설이 필요하다.
    • 귀무가설: A가 B보다 좋다.
    • 대립가설: B가 A보다 좋다.


  • 어느 쪽으로도 속지 않도록 가설검정을 하려면 대립가설은 양방향이 되어야 한다.
    • 대립가설: A는 B와 다르며, 더 좋거나 나쁠 수 있다.


'Data Science with Python' 카테고리의 다른 글

기술 통계량(Descriptive Statistics)  (0) 2020.06.16
재표본 추출  (0) 2019.11.25
A/B 검정  (0) 2019.11.22
1. Data Science in a Big Data World  (0) 2018.04.06

+ Recent posts