68–95–99.7 규칙 - 68–95–99.7 rule

대략 정규 데이터 세트 의 경우 평균의 1 표준 편차 내의 값이 세트의 약 68 %를 차지합니다. 두 표준 편차 내에서 약 95 %를 차지합니다. 3 표준 편차 이내는 약 99.7 %를 차지합니다. 표시된 백분율은 정규 모집단에서 파생 된 경험적 데이터를 근사하기위한 반올림 된 이론적 확률입니다.
표준 점수 ( x )에서 제공된 예측 간격 ( y )입니다. y 축은 대수적으로 스케일링됩니다 (하지만 그 값은 수정되지 않습니다).

에서는 통계68-95-99.7 규칙 일컬어, 경험칙은 , 값들의 비율을 기억하기 위해 사용되는 축약임을 주위 대역 내에있는 평균 A의 정규 분포 두 4-6의 폭 표준 편차 , 각각; 보다 정확하게는 68.27 %, 95.45 % 및 99.73 %의 값이 각각 평균의 1, 2 및 3 표준 편차 내에 있습니다.

수학적 표기법에서 이러한 사실은 다음과 같이 표현할 수 있습니다. 여기서 Χ 는 정규 분포 된 랜덤 변수 의 관측치 이고 μ 는 분포의 평균이며 σ 는 표준 편차입니다.

에서 실험 과학 소위 손가락의 3 시그마 규칙은 종래의 표현 휴리스틱 거의 모든 값 평균 세 표준 편차 내에있는으로 이동되도록, 그리고 따라서, 99.7 %의 치료 경험적 유용 확률 근처 확실성. [1] 이 휴리스틱의 유용성은 특히 고려중인 질문에 따라 다릅니다. 에서 사회학 , 결과가 "로 간주 될 수있다 상당한 그 경우" 신뢰 레벨 에있는 동안, 두 시그마 효과 (95 %)의 순서 인 입자 물리, 발견의 자격을 갖추기 위해 5 시그마 효과 (99.99994 % 신뢰도)가 요구되는 규칙이 있습니다.

더 약한 3- 시그마 규칙은 Chebyshev의 부등식 에서 파생 될 수 있으며 , 이는 비정규 분포 변수의 경우에도 최소 88.8 %의 케이스가 적절하게 계산 된 3- 시그마 구간 내에 속해야합니다. 들어 단봉 분포 , 구간 내에 존재 확률은에 의하여 적어도 95 %이다 Vysochanskij-Petunin 불평등 . 이 확률이 98 % 이상이되도록하는 분포에 대한 특정 가정이있을 수 있습니다. [2]

누적 분포 함수

평균 ( μ ) 0 및 분산 ( σ 2 ) 1 의 정규 분포에 대한 누적 분포 함수보여주는 다이어그램

이러한 수치 "68 %, 95 %, 99.7 %" 는 정규 분포누적 분포 함수 에서 나옵니다 .

모든 표준 점수 z에 대한 예측 구간은 숫자 적으로 (1− (1− Φ μ , σ 2 (z)) · 2)에 해당합니다.

예를 들어 Φ (2) ≈ 0.9772 또는 Pr ( Xμ + 2 σ ) ≈ 0.9772 , (1 − (1 − 0.97725) · 2) = 0.9545 = 95.45 %의 예측 구간에 해당합니다. 이것은 대칭 구간이 아닙니다. 이것은 단지 관측치가 μ + 2 σ 보다 작을 확률 일뿐 입니다. 관측치가 평균의 두 표준 편차 내에있을 확률을 계산하려면 (반올림으로 인한 작은 차이) :

이것은 통계에서 사용되는 신뢰 구간관련이 있습니다 . 다음과 같은 경우 약 95 % 신뢰 구간입니다. 크기 표본의 평균입니다. .

정규성 테스트

"68–95–99.7 규칙"은 모집단이 정상이라고 가정하는 경우 표준 편차가 주어지면 어떤 것의 대략적인 확률 추정치를 빠르게 얻는 데 자주 사용됩니다. 모집단이 정상이라고 가정하면 특이 치에 대한 단순 검정으로 사용되며 모집단이 잠재적으로 정상이 아닌 경우 정규성 검정으로도 사용 됩니다.

표준 편차의 숫자, 하나의 제 계산하는에 샘플에서 전달하려면 편차 는 중 오류 또는 잔류 하나가 인구의 평균을 알거나 만 추정 여부에 따라. 다음 단계는 모집단 모수가 알려진 경우 표준화 (모집단 표준 편차로 나누기) 또는 모수를 알 수없고 추정 된 경우에만 학생 화 (표준 편차 추정값으로 나누기)입니다.

특이 치 또는 정규성 검정에 대한 검정으로 사용하려면 표준 편차 측면에서 편차 크기를 계산하고이를 예상 빈도와 비교합니다. 표본 집합이 주어지면 학생 화 잔차를 계산하고 이를 예상 빈도와 비교할 수 있습니다 . 표준 편차가 3 개 이상인 점은 특이 치일 가능성이 높습니다 ( 표본 크기 가 상당히 크지 않는 한 ,이 지점에서 표본이 예상됩니다. 극단), 그리고 표준에서 3 표준 편차 이상의 점이 많은 경우 가정 된 분포의 정규성에 의문을 제기 할 이유가있을 수 있습니다. 이것은 4 개 이상의 표준 편차 이동에 대해 더욱 강력하게 유지됩니다.

포아송 분포에 의해 주어진 크기 이상의 극단적 인 움직임의 수를 근사화하여 더 정확하게 계산할 수 있지만, 단순히 크기가 1,000 인 표본에 4 개의 표준 편차 움직임이 여러 개있는 경우 이러한 특이 치를 고려할 강력한 이유가 있거나 분포의 가정 된 정규성에 의문을 제기하십시오.

예를 들어, 6 개 σ 이 약의 기회로 이벤트에 대응 억 당 부분 . 예를 들어, 이벤트가 매일 발생한다고 가정하면 이는 140 만년마다 예상되는 이벤트에 해당합니다. 이것은 간단한 정규성 테스트를 제공합니다 . 일일 데이터에서 목격하고 1 백만년 미만이 경과 한 경우 정규 분포는이 점에서 큰 편차의 크기 또는 빈도에 대한 좋은 모델을 제공하지 않을 가능성이 높습니다.

에서 검은 백조 , 나심 니콜라스 탈 레브는 따라되는 위험 모델의 예를 제공합니다 블랙 월요일 충돌이 36-에 해당하는 것입니다 σ의 이벤트 : 이러한 이벤트의 발생 즉시 즉, 모델이 결함이 있음을 시사한다 그 과정에서 고려는 정규 분포에 의해 만족스럽게 모델링되지 않습니다. 그런 다음, 예를 들어 확률 적 변동성 의 도입을 통해 정제 된 모델을 고려해야 합니다. 그러한 논의에서 도박꾼의 오류 에 대한 문제를 인식하는 것이 중요합니다 . 이는 희귀 사건에 대한 단일 관찰이 사건이 실제로 드물다는 것과 모순되지 않는다는 것을 말합니다. [ 인용 필요 ]. 드물다 는 가설 , 즉 가정 된 모델의 타당성 을 점차 약화시키는 것은 여러 가지 희귀 사건에 대한 관찰입니다 . 가설에서 점진적으로 신뢰를 잃는 과정에 대한 적절한 모델링은 가설 자체뿐만 아니라 가능한 모든 대체 가설에 대한 사전 확률 지정을 포함합니다 . 이러한 이유로 통계 가설 검정 은 가능성이 있다고 간주되는 가설을 확인하는 것이 아니라 가능성이 없다고 간주 되는 가설반박하는 방식으로 작동합니다 .

수치 표

정규 분포의 지수 꼬리 때문에 더 높은 편차의 확률은 매우 빠르게 감소합니다. 로부터 일반적으로 분산 된 데이터에 대한 규칙 은 매일 이벤트 :

범위 범위 내 인구의 예상 비율 범위를 벗어난 대략적인 예상 주파수 일일 이벤트의 대략적인 빈도
μ ± 0.5σ 0.382 924 922 548 026 3 인치 5 일주일에 4 ~ 5 회
μ ± σ 0.682 689 492 137 086 1 인치 일주일에 두번
μ ± 1.5σ 0.866 385 597 462 284 1 인치 7 주간
μ ± 2σ 0.954 499 736 103 642 1 인치 22 3 주마다
μ ± 2.5σ 0.987 580 669 348 448 1 인치 81 계간지
μ ± 3σ 0.997 300 203 936 740 1 인치 370 매년
μ ± 3.5σ 0.999 534 741 841 929 1 인치 2149 6 년마다
μ ± 4σ 0.999 936 657 516 334 1 인치 (15) 787 43 년마다 (일생에 두 번)
μ ± 4.5σ 0.999 993 204 653 751 1 인치 147 160 403 년마다 (현대에 한 번)
μ ± 5σ 0.999 999 426 696 856 1 인치 1 744 278 마다 4776 년 (기록 된 역사에 한 번)
μ ± 5.5σ 0.999 999 962 020 875 1 인치 26 330 254 마다 (72) 090 세 (의 역사에서 세 번 현대 인류 )
μ ± 6σ 0.999 999 998 026 825 1 인치 506 797 346 138 만년마다 ( 인류 사상 2 배 )
μ ± 6.5σ 0.999 999 999 919 680 1 인치 12 450 197 393 3,400 만년마다 ( 공룡 멸종 이래 2 배 )
μ ± 7σ 0.999 999 999 997 440 1 인치 390 682 215 445 10 억 7 천만 년마다 ( 지구 역사상 4 번 발생 )
μ ± x σ 1 인치 마다

또한보십시오

참고 문헌

  1. ^ 이 "쓰리 시그마 규칙"의 사용은 2000 년대에 일반적으로 사용되었습니다. 예를 들어 Schaum의 비즈니스 통계 개요 에서 인용 . McGraw Hill 전문가. 2003. p. 359 , 및 Grafarend, Erik W. (2006). 선형 및 비선형 모델 : 고정 효과, 랜덤 효과 및 혼합 모델 . Walter de Gruyter. 피. 553 .
  2. ^ 참조 :

외부 링크