신뢰구간

  • 신뢰수준(confidence level): 같은 모집단에서 같은 방식으로 얻은, 관심 통계량을 포함할 것으로 예상되는 신뢰구간의 백분율
  • 구간끝점(interval endpoint): 신뢰구간의 최상위, 최하위 끝점

  • 사람들은 불확실성에 대해 자연스런 반감을 가진다.
  • 사람들(특히 전문가)은 '잘 모르겠다'는 식으로 말하는 것을 꺼려한다.
  • 분석가나 관리자는 불확실성을 인정하면서도, 그것이 어떤 단일 값(점추정(point estimation))으로 제시될 때, 추정값에 과도한 믿음을 둔다.
  • 단일값이 아닌 어떤 범위로 추정값을 제시하는 것이 이런 경향을 막는 방법이다.
  • 신뢰구간은 통계정 샘플링 원칙에 기반을 둔다.
  • 신뢰구간은 항상 \(90\%\) 또는\(95\%\)와 같이 (높은) 백분율로 표시되는 포함 수준과 함께 사용된다.
  • \(90\%\) 신뢰구간(confidence interval): 표본통계량의 부트스트랩 표본분포의 \(90\%\)를 포함하는 구간
  • 표본추정값 주위의 \(x\%\) 신뢰구간: (비슷한 샘플링 절차를 따랐을 때) 평균적으로 유사한 표본추정값 \(x\%\) 정도가 포함되어야 함

부트스트랩 신뢰구간 구하기

  • 표본크기 \(n\)과 관심있는 표본통계량이 주어졌을 때, 부트스트랩 신뢰구간을 구하는 방법
    • 데이터에서 복원추출 방식으로 크기 \(n\)인 표본을 뽑는다.
    • 재표본추출한표본으로 원하는 통계량을 계산하고 기록한다.
    • 위 과정을 \(R\)번 반복한다.
    • \(x\%\) 신뢰구간을 구하기 위해, \(R\)개의 재표본 결과로부터 분포의 양쪽 끝에서 \([(100-x)/2]\%\)만큼 잘라낸다.
    • 절단한 점들은 \(x\%\) 부트스트랩 신뢰구간의 양 끝점이다.


  • 부트스트랩은 대부분의 통계량 또는 모델 매개변수의 신뢰구간을 얻기위해 사용할 수 있는 일반적인 기법
  • 반세기가 넘도록 컴퓨터가 없던 시절 통계 교과서 및 소프트웨어에서는 수식, 특히 \(t\)-분포로 구한 신뢰구간을 사용했다.

우리가 진정으로 알고싶어 하는 것

  • 표본 결과를 얻었을 때 '참값이 일정 구간 안에 있을 확률'
  • 신뢰구간이 이 질문에 답을 주는 것은 아니지만, 결국 대부분의 사람이 이 질문에 대한 대답을 설명하는 근거로 신뢰구간을 사용
  • 신뢰구간과 관련된 확률 문제: '표본추출 절차와 모집단이 주어지면 '무엇일' 확률은 얼마인가?'
  • '표본 결과가 주어졌을 때 (모집단에 대해 어떤 것이 참일) 확률은 무엇인가?'라는 질문은 더 복잡한 계산과 불확실한 요소를 필요로 한다.

신뢰수준

  • 신뢰수준: 신뢰구간과 관련된 백분율
    • 신뢰수준이 높을 수록 구간이 더 넓어진다.
    • 표본이 작을 수록 구간이 넒어진다. 즉, 불확실성이 더 커진다.
  • 더 확실할 수록, 데이터가 적을 수록 확실한 참값을 얻기에 충분한 신뢰구간을 확보해야 한다.


'탐색적 데이터 분석 (Exploratory Data Analysis)' 카테고리의 다른 글

긴 꼬리 분포  (0) 2019.09.17
정규분포  (0) 2019.09.17
부트스트랩  (0) 2019.09.17
표준오차  (0) 2019.09.17
표본분포  (0) 2019.09.11

+ Recent posts