Akaike 정보 기준 - Akaike information criterion

아카 이케 정보 기준 ( AIC는 )이있다 추정기밖에서 샘플 예측 오차 및 이에 대하여 품질 통계 모델 데이터의 주어진 세트. [1] [2] 데이터에 대한 모델 모음이 주어지면 AIC는 다른 각 모델과 비교하여 각 모델의 품질을 추정합니다. 따라서 AIC는 모델 선택을 위한 수단을 제공합니다 .

AIC는 정보 이론을 기반으로 합니다. 데이터를 생성 한 프로세스를 나타내는 데 통계 모델이 사용되면 그 표현은 거의 정확하지 않습니다. 따라서 프로세스를 나타내는 모델을 사용하면 일부 정보가 손실됩니다. AIC는 주어진 모델에서 손실되는 정보의 상대적인 양을 추정합니다. 모델이 손실하는 정보가 적을수록 해당 모델의 품질이 높아집니다.

모델에 의해 손실 된 정보의 양을 추정 할 때 AIC는 모델의 적합도 와 모델의 단순성 사이의 균형을 다룹니다 . 즉, AIC는 과적 합 위험과 과소 적합 위험을 모두 처리합니다.

Akaike 정보 기준은이 를 공식화 한 일본 통계 학자 Hirotugu Akaike 의 이름을 따서 명명되었습니다 . 이제 통계 의 기초를위한 패러다임의 기초를 형성하고 통계적 추론 에도 널리 사용됩니다 .

정의

일부 데이터 통계 모델 이 있다고 가정합니다 . 하자 k는 추정의 숫자 매개 변수 모델이다. 허락하다모델에 대한 우도 함수 의 최대 값입니다 . 그러면 모델의 AIC 값은 다음과 같습니다. [3] [4]

데이터에 대한 후보 모델 세트가 주어지면 선호되는 모델은 최소 AIC 값을 가진 모델입니다. 따라서 AIC 는 적합도 (우도 함수로 평가됨)를 보상 하지만 추정 된 매개 변수 수의 증가 함수 인 패널티도 포함합니다. 패널티는 과적 합을 방지 하는데, 이는 모형에서 매개 변수 수를 늘리면 거의 항상 적합도를 향상시키기 때문에 바람직합니다.

AIC는 정보 이론에 기반을두고 있습니다. 데이터가 알려지지 않은 프로세스 f에 의해 생성되었다고 가정합니다 . f : g 1g 2 를 나타내는 두 가지 후보 모델을 고려 합니다. f 를 안다면 , 우리 Kullback-Leibler divergence , D KL ( fg 1 ) 을 계산하여 f 를 표현하기 위해 g 1사용하여 손실 된 정보를 찾을 수 있습니다 . 유사하게, f 를 표현하기 위해 g 2사용하여 손실 된 정보D KL ( fg 2 ) 을 계산하여 찾을 수 있습니다 . 그런 다음 일반적으로 정보 손실을 최소화 한 후보 모델을 선택합니다.

우리는 f를 모르기 때문에 확실하게 선택할 수 없습니다 . 그러나 Akaike (1974) 는 AIC를 통해 g 2 보다 g 1에 의해 얼마나 많은 (또는 적은) 정보가 손실되는지 추정 할 수 있음을 보여주었습니다 . 그러나 추정치는 점근 적 으로 만 유효합니다 . 데이터 포인트의 수가 적 으면 약간의 수정이 필요한 경우가 많습니다 (아래 AICc 참조).

AIC는 모델의 절대적인 품질에 대해서는 아무것도 알려주지 않고 다른 모델에 비해 상대적인 품질 만 알려줍니다. 따라서 모든 후보 모델이 적합하지 않은 경우 AIC는 이에 대해 경고하지 않습니다. 따라서 AIC를 통해 모델을 선택한 후 일반적으로 모델의 절대 품질을 검증하는 것이 좋습니다. 이러한 검증에는 일반적으로 모델의 잔차 검사 (잔차가 무작위로 보이는지 여부를 결정하기 위해)와 모델의 예측 테스트가 포함됩니다. 이 주제에 대한 자세한 내용은 통계 모델 유효성 검사를 참조하십시오 .

실제로 AIC를 사용하는 방법

실제로 AIC를 적용하기 위해 후보 모델 세트로 시작한 다음 모델의 해당 AIC 값을 찾습니다. "진정한 모델", 즉 데이터를 생성 한 프로세스를 나타내는 후보 모델을 사용하면 거의 항상 정보가 손실됩니다. 후보 모델 중에서 정보 손실을 최소화하는 모델을 선택하고자합니다. 확실하게 선택할 수는 없지만 예상되는 정보 손실을 최소화 할 수 있습니다.

R 후보 모델 이 있다고 가정합니다 . AIC 1 , AIC 2 , AIC 3 , ..., AIC R 로 해당 모델의 AIC 값을 나타냅니다 . AIC min 을 해당 값의 최소값으로 둡니다 . 그러면 수량 exp ((AIC min − AIC i ) / 2)는 i 번째 모델이 (추정 된) 정보 손실을 최소화 할 확률에 비례하는 것으로 해석 될 수 있습니다 . [5]

예를 들어, AIC 값이 100, 102, 110 인 3 개의 후보 모델이 있다고 가정합니다. 그러면 두 번째 모델은 exp ((100 − 102) / 2) = 0.368 배입니다. 정보 손실. 마찬가지로, 세 번째 모델은 정보 손실을 최소화하기 위해 첫 번째 모델보다 exp ((100 − 110) / 2) = 0.007 배 확률이 높습니다.

이 예에서는 추가 고려 사항에서 세 번째 모델을 생략합니다. 그런 다음 세 가지 옵션이 있습니다. (1) 처음 두 모델을 명확하게 구분할 수 있도록 더 많은 데이터를 수집합니다. (2) 데이터가 처음 두 모델 중에서 하나의 모델을 선택하는 것을 지원하기에 충분하지 않다고 결론을 내립니다. (3) 가중치가 각각 1과 0.368에 비례하는 처음 두 모델의 가중 평균을 취한 다음 가중 다중 모델을 기반으로 통계적 추론 을 수행 합니다 . [6]

수량 exp ((AIC min − AIC i ) / 2)는 모델 i상대적 우도 로 알려져 있습니다. 우도 비 검정에 사용 된 우도 비와 밀접한 관련이 있습니다. 실제로 후보 세트의 모든 모델에 동일한 수의 매개 변수가있는 경우 처음에는 AIC를 사용하는 것이 우도 비 테스트를 사용하는 것과 매우 유사하게 보일 수 있습니다. 그러나 중요한 차이점이 있습니다. 특히 우도 비 테스트는 중첩 모델 에만 유효 하지만 AIC (및 AICc)에는 이러한 제한이 없습니다. [7] [8]

가설 검증

모든 통계 가설 테스트 는 통계 모델의 비교로 공식화 될 수 있습니다. 따라서 모든 통계 가설 테스트는 AIC를 통해 복제 될 수 있습니다. 아래 하위 섹션에서는 두 가지 예를 간략하게 설명합니다. 이러한 예와 더 많은 예에 대한 자세한 내용은 Sakamoto, Ishiguro & Kitagawa (1986 , Part II) 및 Konishi & Kitagawa (2008 , ch. 4)에 의해 제공됩니다.

스튜던트 t 테스트 복제

가설 검정의 예로서, 고려 t -test를 두개의 방법과 비교하기 위해 일반적으로 분산 인구. t-검정에 대한 입력 은 두 모집단 각각의 무작위 표본으로 구성됩니다.

테스트를 모델 비교로 공식화하기 위해 두 가지 다른 모델을 구성합니다. 첫 번째 모델은 잠재적으로 다른 평균과 표준 편차를 갖는 것으로 두 모집단을 모델링합니다. 따라서 첫 번째 모델의 우도 함수는 두 개의 다른 정규 분포에 대한 우도의 곱입니다. 따라서 4 개의 매개 변수 : μ 1 , σ 1 , μ 2 , σ 2 . 명확하게하기 위해 우도 함수 는 다음과 같습니다 (표본 크기를 n 1n 2로 표시 ).

두 번째 모델은 두 모집단이 평균은 같지만 표준 편차가 잠재적으로 다른 것으로 모델링합니다. 따라서 두 번째 모델에 대한 우도 함수 는 위 방정식에서 μ 1 = μ 2 를 설정합니다. 세 가지 매개 변수가 있습니다.

그런 다음 두 모델의 우도 함수를 최대화합니다 (실제로는 로그 우도 함수를 최대화합니다). 그 후에 모델의 AIC 값을 쉽게 계산할 수 있습니다. 다음으로 상대적 우도를 계산합니다. 예를 들어, 두 번째 모델이 첫 번째 모델보다 0.01 배 더 높았다면 두 번째 모델은 추가 고려에서 생략 할 것입니다. 따라서 두 모집단의 평균이 서로 다르다는 결론을 내릴 수 있습니다.

t 두 집단은 동일한 표준 편차를 가지고 있다고 가정 -test; 가정이 거짓 두 샘플의 크기 (매우 다른 경우 시험은 신뢰할 수없는 경향이있다 웰치 t -test 더 좋을 것이다). 위의 예에서와 같이 AIC를 통해 모집단의 평균을 비교하는 것은 이러한 가정을하지 않는 이점이 있습니다.

범주 형 데이터 세트 비교

가설 검정의 또 다른 예를 들어, 두 개의 모집단이 있고 각 모집단의 각 구성원이 범주 # 1 또는 범주 # 2 중 하나에 있다고 가정합니다 . 각 모집단은 이항 분포를 따릅니다 . 두 모집단의 분포가 동일한 지 여부를 알고 싶습니다. 두 모집단 각각에서 무작위 표본이 제공됩니다.

하자 m은 첫 번째 인구에서 샘플의 크기. 하자 m (1)는 카테고리 # 1 (샘플)에서 관측 될 수; 따라서 범주 # 2의 관측치 수는 mm 1 입니다. 마찬가지로 n을 두 번째 모집단의 표본 크기라고합니다. 하자 n은 1 카테고리 # 1 (샘플)에 관찰의 숫자.

p를 첫 번째 모집단에서 무작위로 선택한 구성원이 범주 # 1에 속할 확률 이라고합시다 . 따라서 첫 번째 모집단에서 무작위로 선택한 구성원이 범주 # 2에 속할 확률은 1 − p 입니다. 첫 번째 모집단의 분포에는 하나의 모수가 있습니다. q를 두 번째 모집단에서 무작위로 선택한 구성원이 범주 # 1에 속할 확률 이라고합시다 . 두 번째 모집단의 분포에는 하나의 모수가 있습니다.

두 모집단의 분포를 비교하기 위해 두 개의 다른 모델을 구성합니다. 첫 번째 모델은 잠재적으로 다른 분포를 갖는 것으로 두 모집단을 모델링합니다. 따라서 첫 번째 모델의 우도 함수는 두 개의 서로 다른 이항 분포에 대한 우도의 곱입니다. 따라서 두 개의 매개 변수가 있습니다 : p , q . 명확하게 말하면 우도 함수는 다음과 같습니다.

두 번째 모델은 두 모집단이 동일한 분포를 갖는 것으로 모델링합니다. 따라서 두 번째 모델에 대한 우도 함수 는 위 방정식에서 p = q 를 설정합니다 . 두 번째 모델에는 하나의 매개 변수가 있습니다.

그런 다음 두 모델의 우도 함수를 최대화합니다 (실제로는 로그 우도 함수를 최대화합니다). 그 후에 모델의 AIC 값을 쉽게 계산할 수 있습니다. 다음으로 상대적 우도를 계산합니다. 예를 들어, 두 번째 모델이 첫 번째 모델보다 0.01 배 더 높았다면 두 번째 모델은 추가 고려 사항에서 생략합니다. 따라서 두 모집단의 분포가 서로 다르다는 결론을 내릴 수 있습니다.

통계의 기초

통계적 추론 은 일반적으로 가설 검정과 추정 을 포함하는 것으로 간주됩니다 . 가설 테스트는 위에서 설명한대로 AIC를 통해 수행 할 수 있습니다. 추정과 관련하여 포인트 추정간격 추정의 두 가지 유형이 있습니다 . 포인트 추정은 AIC 패러다임 내에서 수행 할 수 있습니다. 이는 최대 가능성 추정에 의해 제공됩니다 . 간격 추정은 AIC 패러다임 내에서도 수행 될 수 있습니다 . 우도 간격으로 제공됩니다 . 따라서 통계적 추론은 일반적으로 AIC 패러다임 내에서 수행 될 수 있습니다.

통계적 추론에 가장 일반적으로 사용되는 패러다임은 빈도주의 추론베이지안 추론 입니다. 그러나 AIC는 빈도주의 패러다임이나 베이지안 패러다임에 의존하지 않고 통계적 추론을 수행하는 데 사용할 수 있습니다 .AIC유의 수준 이나 베이지안 사전 의 도움없이 해석 될 수 있기 때문 입니다. [9] 다른 말로하면, AIC는 형성하는데 사용될 수있다 통계 기반 모두 frequentism Bayesianism과 구별된다. [10] [11]

작은 표본 크기에 대한 수정

샘플 크기가 작고, AIC는 AIC가 overfit 것, 즉 너무 많은 매개 변수가 모델 것이라는 상당한 가능성이있다. [12] [13] [14] 에 어드레스 같은 전위 overfitting, AICC이 개발되었다 AICC 작은 샘플 크기와 보정 AIC이다.

AICc의 공식은 통계 모델에 따라 다릅니다. 모델이 일 변량 이고 매개 변수가 선형이며 정규 분포 잔차 (회귀 자에 따라 조건부) 가 있다고 가정하면 AICc의 공식은 다음과 같습니다. [15] [16]

-여기서 n 은 샘플 크기를 나타내고 k 는 매개 변수의 수를 나타냅니다. 따라서 AICc는 기본적으로 매개 변수 수에 대한 추가 페널티 조건이있는 AIC입니다. 주와 N → ∞ , 따라서 여분의 페널티 용어 수렴 0, 및 AIC에 AICC의 수렴. [17]

모형이 일 변량이고 정규 잔차가있는 선형이라는 가정이 유지되지 않는 경우 AICc에 대한 공식은 일반적으로 위 공식과 다릅니다. 일부 모델의 경우 공식을 결정하기 어려울 수 있습니다. 그러나 AICc를 사용할 수있는 모든 모델에 대해 AICc에 대한 공식은 AIC와 kk 2를 모두 포함하는 항으로 제공됩니다 . 이에 비해, AIC의 수식 포함 k는 아니지만 k는 2 . 즉, AIC는 정보 손실 1 차 추정값 인 반면 AICc는 2 차 추정값 입니다. [18]

다른 가정의 예와 함께 공식에 대한 추가 논의는 Burnham & Anderson (2002 , ch. 7) 및 Konishi & Kitagawa (2008 , ch. 7–8)에 의해 제공됩니다. 특히, 다른 가정에서는 공식의 부트 스트랩 추정 이 종종 가능합니다.

요약하면, AICc는 AIC (특히 작은 샘플의 경우)보다 정확하다는 장점이 있지만 AICc는 때때로 AIC보다 계산하기가 훨씬 더 어렵다는 단점도 있습니다. 모든 후보 모델이 AICc에 대해 동일한 k 및 동일한 공식을 갖는 경우 AICc 및 AIC는 동일한 (상대적) 평가를 제공합니다. 따라서 AICc 대신 AIC를 사용하는 데 단점이 없습니다. 또한 nk 2 보다 몇 배 더 크면 추가 패널티 항은 무시할 수 있습니다. 따라서 AICc 대신 AIC를 사용할 때의 단점은 무시할 수 있습니다.

역사

Akaike 정보 기준은 통계 학자 Hirotugu Akaike에 의해 공식화되었습니다 . 원래는 "정보 기준"으로 명명되었습니다. [19] 1971 년 심포지엄에서 Akaike가 영어로 처음 발표했습니다. 심포지엄의 절차는 1973 년에 발표되었습니다. [19] [20] 1973 년 간행물은 개념에 대한 비공식적 인 발표에 불과했습니다. [21] 제 공식 공보 아카 이케 의해 종이 1,974이었다. [4] 2014 년 10 월 현재 1974 년 논문은 Web of Science 에서 14,000 회 이상의 인용을 받았으며 , 이는 역대 73 번째로 가장 많이 인용 된 연구 논문이되었습니다. [22]

오늘날 AIC는 Akaike의 1974 년 논문을 인용하지 않고 자주 사용되기에 충분히 보편화되었습니다. 실제로 AIC를 사용하는 학술 논문 / 책은 150,000 개가 넘습니다 ( Google Scholar 평가 기준). [23]

AIC의 초기 유도는 몇 가지 강력한 가정에 의존했습니다. Takeuchi (1976) 는 가정이 훨씬 더 약해질 수 있음을 보여주었습니다. 그러나 Takeuchi의 작업은 일본어로 이루어졌으며 수년 동안 일본 밖에서는 널리 알려지지 않았습니다.

AICc는 원래 Sugiura (1978)에 의해 선형 회귀 (전용)를 위해 제안되었습니다 . 그것은 Hurvich & Tsai (1989) 의 작업을 시작했고 , AICc가 적용될 수있는 상황을 확장 한 동일한 저자의 여러 논문을 추가했습니다.

정보 이론적 접근 방식의 첫 번째 일반 설명은 Burnham & Anderson (2002) 의 책이었습니다 . Takeuchi의 작품에 대한 영어 프레젠테이션이 포함되어 있습니다. 이 볼륨으로 인해 AIC가 훨씬 더 많이 사용되었으며 현재 Google 학술 검색 에 48,000 개 이상의 인용이 있습니다 .

Akaike는 그의 접근 방식이 정보 이론엔트로피 개념에 기반을두고 있기 때문에 "엔트로피 최대화 원리"라고 불렀습니다 . 사실, 통계 모델에서 AIC를 최소화하는 것은 열역학 시스템에서 엔트로피를 최대화하는 것과 사실상 동일합니다. 즉, 통계의 정보 이론적 접근은 본질적 으로 열역학 제 2 법칙을 적용하는 것 입니다. 따라서 AIC는 엔트로피 에 대한 Ludwig Boltzmann 의 작업에 뿌리를두고 있습니다. 이러한 문제에 대한 자세한 내용은 Akaike (1985)Burnham & Anderson (2002 , ch. 2)을 참조하십시오.

사용 팁

계수 매개 변수

통계 모델은 모든 데이터 포인트에 맞게해야합니다. 따라서 모든 데이터 포인트가 정확히 선 위에 있지 않는 한, 직선은 그 자체로 데이터의 모델이 아닙니다. 그러나 우리는 "직선 + 노이즈"인 모델을 선택할 수 있습니다. 이러한 모델은 다음과 같이 공식적으로 설명 될 수 있습니다. y i = b 0 + b 1 x i + ε i . 여기서 ε i직선 적합 잔차 입니다. 경우] ε가 나는 것으로 가정 IID 가우시안 (제로 평균)와, 그 모델은 세 개의 매개 변수를 갖는다 : B 0, b 1 및 가우스 분포의 분산. 따라서이 모델의 AIC 값을 계산할 때 k = 3을 사용해야합니다 . 보다 일반적으로 iid 가우시안 잔차가 있는 최소 제곱 모델의 경우 잔차 분포의 분산을 매개 변수 중 하나로 계산해야합니다. [24]

다른 예로서, 일차 고려 회귀 모델 에 의해 정의 된 X I = C + φx I -1 + ε I 와, ε 제가 존재하는 (제로 평균과) 가우스 IID. 이 모델에는 c , φε i 의 분산의 세 가지 매개 변수가 있습니다 . 보다 일반적으로 p 차 자기 회귀 모형에는 p + 2 개의 매개 변수가 있습니다. (그러나 c 가 데이터에서 추정되지 않고 미리 제공된 경우 p + 1 매개 변수 만 있습니다.)

데이터 변환

후보 모델의 AIC 값은 모두 동일한 데이터 세트로 계산되어야합니다. 때때로, 그러나, 우리는의 모델 비교 할 수 있습니다 응답 변수 , y로 응답 변수의 대수의 모델로, (로그 y로 ) . 보다 일반적으로 데이터 모델을 변환 된 데이터 모델과 비교할 수 있습니다 . 다음은 데이터 변환을 처리하는 방법에 대한 설명입니다 ( Burham & Anderson (2002 , §2.11.3) : "조사자는 모든 가설이 동일한 반응 변수를 사용하여 모델링되었는지 확인해야합니다").

정규 분포y 인 모델 과 정규 분포가 log ( y ) 인 두 모델을 비교한다고 가정합니다 . 두 모델의 AIC 값을 직접 비교 해서는 안됩니다 . 대신 정규 누적 분포 함수 를 먼저 y 의 로그를 취하도록 변환해야합니다 . 이를 위해서는 치환에 의한 관련 통합 을 수행해야합니다 . 따라서 1 / y 인 (자연) 로그 함수 의 미분을 곱해야합니다 . 따라서 변환 된 분포는 다음과 같은 확률 밀도 함수를 갖습니다.:

로그 정규 분포에 대한 확률 밀도 함수입니다 . 그런 다음 정규 모델의 AIC 값을 로그 정규 모델의 AIC 값과 비교합니다.

소프트웨어 비 신뢰성

일부 통계 소프트웨어 [ 어느? ] 는 AIC의 값 또는 로그 가능도 함수의 최대 값을보고하지만보고 된 값이 항상 올바른 것은 아닙니다. 일반적으로 모든 부정확성은 로그 가능도 함수의 상수가 생략 되었기 때문입니다. 예를 들어,의 로그 - 우도 함수 N 독립적 동일한 정상 분포 이고

-이것은 AIC 값을 얻을 때 최대화되는 기능입니다. 일부 소프트웨어, [ 어느? ] 그러나 상수 항 ( n / 2) ln (2 π )를 생략 하므로 로그 가능도 최대 값 및 AIC에 대해 잘못된 값을보고합니다. 이러한 오류는 AIC 기반 비교에서 중요하지 않습니다. 모든 모델에 정규 분포 된 잔차있으면 오류가 상쇄되기 때문입니다. 그러나 일반적으로 상수항은 로그 가능도 함수에 포함되어야합니다. [25] 따라서 소프트웨어를 사용하여 AIC를 계산하기 전에 일반적으로 소프트웨어에서 몇 가지 간단한 테스트를 실행하여 함수 값이 올바른지 확인하는 것이 좋습니다.

다른 모델 선택 방법과의 비교

BIC와의 비교

의 화학식 베이지안 정보 기준 (BIC)는하지만 파라미터의 개수에 대해 다른 페널티, AIC의 수식과 유사하다. AIC의 경우 패널티는 2 k 이고 BIC의 경우 패널티는 ln ( n ) k 입니다.

AIC / AICc와 BIC의 비교는 Burnham & Anderson (2002 , §6.3-6.4)에 의해 제공되며 Burnham & Anderson (2004)의 후속 발언이 있습니다. 저자는 AIC / AICc가 다른 사전 확률 을 사용하여 BIC와 동일한 베이지안 프레임 워크에서 파생 될 수 있음을 보여줍니다 . 그러나 BIC의 베이지안 유도에서 각 후보 모델은 1 / R 의 사전 확률을가집니다 (여기서 R 은 후보 모델의 수입니다). 사전이 k 의 감소하는 함수 여야하므로 이러한 유도는 "분명하지 않습니다" . 또한 저자는 AICc가 BIC보다 실용적 / 성능 적 이점을 갖는 경향이 있음을 시사하는 몇 가지 시뮬레이션 연구를 제시합니다.

여러 연구자들이 지적한 점은 AIC와 BIC가 서로 다른 작업에 적합하다는 것입니다. 특히, BIC는 후보 모델 세트에서 "진정한 모델"(즉, 데이터를 생성 한 프로세스)을 선택하는 데 적절하다고 주장되지만 AIC는 적절하지 않습니다. 구체적으로 "진정 모델"이 후보 세트에 있으면 BIC는 확률이 1 인 "진정 모델"을 n → ∞로 선택합니다 . 대조적으로, AIC를 통해 선택이 이루어지면 확률은 1보다 작을 수 있습니다. [26] [27] [28] AIC 지지자들은 "진정한 모델"이 사실상 후보 세트에 포함되지 않기 때문에이 문제는 무시해도 좋다고 주장합니다. . 사실, 통계에서 " 모든 모델이 틀렸다 "는 일반적인 격언입니다."; 따라서"진정한 모델 "(즉 현실)은 후보 세트에있을 수 없습니다.

AIC와 BIC의 또 다른 비교는 Vrieze (2012)에 의해 제공됩니다 . Vrieze는 "실제 모델"이 후보 세트에 포함될 수 있도록하는 시뮬레이션 연구를 제공합니다 (거의 모든 실제 데이터와 달리). 특히 시뮬레이션 연구는 "진정한 모델"이 후보 세트에있는 경우에도 AIC가 때때로 BIC보다 훨씬 더 나은 모델을 선택한다는 것을 보여줍니다. 그 이유는 유한 n의 경우 BIC가 후보 세트에서 매우 나쁜 모델을 선택할 상당한 위험을 가질 수 있기 때문입니다 . 이 이유는 nk 2 보다 훨씬 큰 경우 에도 발생할 수 있습니다 . AIC를 사용하면 매우 잘못된 모델을 선택할 위험이 최소화됩니다.

"진정한 모델"이 후보 세트에 없으면 "진정한 모델"에 가장 근접한 모델을 선택하는 것이 가장 좋습니다. AIC는 특정 가정 하에서 최적의 근사 모델을 찾는 데 적합합니다. [26] [27] [28] (이러한 가정에는 특히 정보 손실과 관련하여 근사화가 수행된다는 가정이 포함됩니다.)

회귀 의 맥락에서 AIC와 BIC의 비교는 Yang (2005)에 의해 제공됩니다 . 회귀 분석에서 AIC는 "진정 모델"이 후보 세트에 없다는 가정하에 최소 평균 제곱 오차가 있는 모델을 선택하는 데 점근 적으로 최적입니다 . BIC는 가정 하에서 점근 적으로 최적이 아닙니다. Yang은 또한 AIC가 최적으로 수렴하는 속도가 어떤 의미에서 가능한 최선임을 보여줍니다.

교차 검증과의 비교

Leave-one-out 교차 검증 은 일반 선형 회귀 모델의 경우 AIC와 점근 적으로 동일합니다. [29] AIC에 점근 당량은 동안 보유 혼합 효과 모델 . [30]

최소 제곱과의 비교

때때로 각 후보 모델은 잔차가 독립적 인 동일한 정규 분포 (평균 0)에 따라 분포되어 있다고 가정합니다. 그러면 최소 제곱 모델 피팅이 발생합니다.

최소 제곱 피팅 을 사용하면 모델 잔차 분포의 분산에 대한 최대 가능성 추정값 은 다음과 같습니다., 어디 는 IS 제곱의 잔여 합계 :. 그러면 모델의 로그 우도 함수의 최대 값은 다음과 같습니다.

어디 C는 모델의 상수 독립적이며, 데이터가 변경되지 않는 경우에만 상기 특정 데이터 포인트에 대한 의존이 예는 변하지 않는다.

그러면 AIC = 2 k + n ln (RSS / n ) − 2 C = 2 k + n ln (RSS) − ( n ln ( n ) + 2 C ) 입니다. [31] AIC에서만 차이를 의미하기 때문에, 정수 ( N LN ( N ) + (2) C는 ) 우리 편리 AIC = 촬영할 수있는 무시할 수 2 K + N LN (RSS) 모델의 비교. 모든 모델의 k 가 동일한 경우, 최소 AIC가있는 모델을 선택 하는 것은 최소 제곱을 기반으로 한 모델 선택의 일반적인 목표 인 최소 RSS를 사용 하는 모델을 선택하는 것과 같습니다 .

Mallows의과의 비교 C의 P

Mallows의 C p 는 (가우시안) 선형 회귀 의 경우 AIC와 동일합니다 . [32]

또한보십시오

메모

  1. McElreath, Richard (2016). 통계적 재검토 : R 및 Stan의 예제가 포함 된 베이지안 과정 . CRC Press. 피. 189 ISBN 978-1-4822-5344-3. AIC는 평균 표본 외 편차의 놀랍도록 간단한 추정치를 제공합니다.
  2. Taddy, Matt (2019). 비즈니스 데이터 과학 : 머신 러닝과 경제성을 결합하여 비즈니스 의사 결정을 최적화, 자동화 및 가속화 합니다. 뉴욕 : McGraw-Hill. 피. 90. ISBN 978-1-260-45277-8. AIC는 OOS 편차에 대한 추정치입니다.
  3. Burnham & Anderson 2002 , §2.2
  4. a b Akaike 1974
  5. Burnham & Anderson 2002 , §2.9.1, §6.4.5
  6. Burnham & Anderson 2002 년
  7. Burnham & Anderson 2002 , §2.12.4
  8. Murtaugh 2014 년
  9. Burnham & Anderson 2002 , p. 99
  10. Bandyopadhyay & Forster 2011
  11. Sakamoto, Ishiguro & Kitagawa 1986 년
  12. McQuarrie & Tsai 1998 년
  13. Claeskens & Hjort 2008 , §8.3
  14. Giraud 2015 , §2.9.1
  15. Cavanaugh 1997 년
  16. Burnham & Anderson 2002 , §2.4
  17. Burnham & Anderson 2004 년
  18. Burnham & Anderson 2002 , §7.4
  19. ^ a b Findley & Parzen 1995 년
  20. Akaike 1973
  21. deLeeuw 1992
  22. Van Noordon R., Maher B., Nuzzo R. (2014), " The top 100 papers ", Nature , 514.
  23. ^ "Akaike"와 "AIC"를 모두 포함하는 출처 Google 학술 검색 .
  24. Burnham & Anderson 2002 , p. 63
  25. Burnham & Anderson 2002 , p. 82
  26. ^ a b Burnham & Anderson 2002 , §6.3-6.4
  27. a b Vrieze 2012
  28. a b Aho, Derryberry & Peterson 2014
  29. Stone 1977
  30. Fang 2011
  31. Burnham & Anderson 2002 , p. 63
  32. Boisbunon et al. 2014 년

참고 문헌

추가 읽기