赤池情報量規準

赤池情報量規準(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するための指標である。単にAICとも呼ばれ、この呼び方のほうが一般的である。統計学の世界では非常に有名な指標であり、多くの統計ソフトに備わっている。元統計数理研究所所長の赤池弘次が1971年に考案し1973年に発表した[1]

AICは、「モデルの複雑さと、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしまうため、同種のデータには合わなくなる(過適合問題、Overfitting)。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる[2]

公式は次の通りである。

A I C = 2 ln L + 2 k {\displaystyle \mathrm {AIC} =-2\ln L+2k\,}

ここで L {\displaystyle L} は最大尤度 k {\displaystyle k} は自由パラメータの数である。

式の変形

AICは他にもさまざまな形で表される。

パラメータの数として局外変数(誤差の大きさを表すパラメータ)を数えない流儀があり、その場合、

A I C = 2 ln L + 2 ( K + 1 ) {\displaystyle \mathrm {AIC} =-2\ln L+2(K+1)\,}
A I C = 2 ln L + 2 K {\displaystyle \mathrm {AIC} =-2\ln L+2K\,}

となる。ここでは区別のため大文字の K を使ったが、通常は双方の「パラメータ数」の表現にはっきりした使い分けはない。AICはモデル間の互いの差のみが意味を持つため、定数項は無視し、2行目のように定義することもある。式の見かけは冒頭の式と同じだが、値は異なる。

各標本の誤差項が独立で確率分布正規分布の場合、

A I C = i = 0 n ln ( 2 π σ i 2 ) + 2 = i = 0 n ln σ i 2 + 2 k + n ln 2 π {\displaystyle \mathrm {AIC} =\sum _{i=0}^{n}\ln(2\pi \sigma _{i}^{2})+2=\sum _{i=0}^{n}\ln \sigma _{i}^{2}+2k+n\ln 2\pi \,}
A I C = i = 0 n ln σ i 2 + 2 k {\displaystyle \mathrm {AIC} =\sum _{i=0}^{n}\ln \sigma _{i}^{2}+2k\,}

と表せる。n は標本サイズ、σi は各標本の標準誤差である。2行目は、定数項を省略した値である。

それに加えさらに、各標本の標準誤差が等しい場合は、

A I C = n ln ( 2 π σ 2 ) + 2 k = n ln σ 2 + 2 k + n ln 2 π {\displaystyle \mathrm {AIC} =n\ln(2\pi \sigma ^{2})+2k=n\ln \sigma ^{2}+2k+n\ln 2\pi \,}
A I C = n ln σ 2 + 2 k {\displaystyle \mathrm {AIC} =n\ln \sigma ^{2}+2k\,}

とまで単純化できる。

有限修正

AICは導出に漸近理論を使っているため、標本サイズ無限を仮定している。そのため、標本サイズが小さい場合(およそ数十程度まで)ではその仮定が成り立たず、偏りが生じる。具体的には、AIC最小化によるモデル決定はパラメータ数を過大に見積もってしまう。これに対する対策を「AICの有限修正」と呼ぶ。

N. Sugiura (1978) は漸近理論を使わない不偏推定量であるc-AICを導出した[3]

c-AIC = 2 ln L + 2 k n n k 1 = A I C + 2 k ( k + 1 ) n k 1 {\displaystyle {\textrm {c-AIC}}=-2\ln L+{\frac {2kn}{n-k-1}}=\mathrm {AIC} +{\frac {2k(k+1)}{n-k-1}}}

ここで n {\displaystyle n} はサンプルサイズである。 n {\displaystyle n} が大きくなるにつれてc-AICは、AICへと収束してゆく。

n は小さくはなくても k / n が大きい(1に比べ十分に小さくない)場合には、一致性が成立せず、AICはやはり過大にパラメータ数を見積もる。このような場合にも、c-AICは正しい結果を出す。

ただし、c-AICは漸近理論を使わない代わりに、誤差項が正規分布の一般化線形モデルを仮定している。そのため、それ以外の、たとえば誤差項が二項分布のモデルなどに使うことはできない。

他の基準との比較

しかし、AIC最小のものを選択すれば常に最良であるかと言うと一概にはそう言えない。そのため、AICの後、モデル選択基準として、BIC、CIC、DIC、EIC、GIC、PIC、TIC、WAIC、WBICなど多くの基準が提案されている。xICという名称のモデル以外では、MDL、HQなどがある。

このうち、BIC(ベイズ情報量規準)、MDL(Minimum Description Length; 最小記述長)が特に有名である。ベイズモデルの予測力を測る基準として、1980年には赤池ベイズ情報量規準(ABIC)も提案され、広く用いられている。

また、GICは一般化情報量規準 (Generalized Information Criterion)で、統計的汎関数に基づいて提案された情報量規準である[4]

参考文献

  1. ^ Akaike, H., "Information theory and an extension of the maximum likelihood principle", Proceedings of the 2nd International Symposium on Information Theory, Petrov, B. N., and Caski, F. (eds.), Akadimiai Kiado, Budapest: 267-281 (1973).
  2. ^ 坂元慶行, 石黒真木夫, 北川源四郎, 情報量統計学, 共立出版 (1983).
  3. ^ Nariaki Sugiura, "Further analysts of the data by akaike' s information criterion and the finite corrections", Communications in Statistics - Theory and Methods, 7(1), pp. 13-26 (1978).
  4. ^ Konishi, S. and Kitagawa, G. (1996). “Generalised information criteria in model selection”. Biometrika 83: 875–890. doi:10.1093/biomet/83.4.875. 

関連項目

外部リンク

  • This Week's Citation Classic CC/Number 51
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ