ベイズ因子

統計学
ベイズ統計学
理論
技法

ベイズ因子(ベイズいんし、: Bayes factor)は、ベイズ統計学において、伝統的統計学仮説検定に代わる方法として用いられる数値である。

データベクトルx に基づいて2つの数学的モデル M1M2 のどちらかを選択する問題を考える。ここで、ベイズ因子 K

K = p ( x | M 1 ) p ( x | M 2 ) {\displaystyle K={\frac {p(x|M_{1})}{p(x|M_{2})}}}

で与えられる。この方法は尤度比検定あるいは最尤法に似ているが、尤度(モデルあるいは母数を定数とし、それを条件とする確率変数x条件付き確率のこと)を最大化するのでなく、母数を確率変数とし、それに対して平均値をとってから最大化するところが違う。一般にモデルは母数ベクトル(複数の母数をベクトルとして扱う)によって規定される。これらをM1 に対して θ1M2 に対して θ2 としよう。K

K = p ( x | M 1 ) p ( x | M 2 ) = p ( θ 1 | M 1 ) p ( x | θ 1 , M 1 ) d θ 1 p ( θ 2 | M 2 ) p ( x | θ 2 , M 2 ) d θ 2 {\displaystyle K={\frac {p(x|M_{1})}{p(x|M_{2})}}={\frac {\int \,p(\theta _{1}|M_{1})p(x|\theta _{1},M_{1})\,d\theta _{1}}{\int \,p(\theta _{2}|M_{2})p(x|\theta _{2},M_{2})\,d\theta _{2}}}}

で与えられる。このK対数をとり、「データ x によって与えられる M2 を基準としたM1証拠の重み(weight of evidence)」と呼ぶこともある。単位はビット(2を底にした場合)など。

K > 1 は、M1 の方が M2 よりも確からしいということをデータが示しているということであり、K < 1となればちょうどその逆となる。それに対し、古典的な仮説検定は一方の仮説(またはモデル)に反する証拠しか考慮対象にしていない(つまり両仮説は不可逆である)という点が、大きく異なる。

成功か失敗かどちらかの結果になる確率変数を考えよう。成功確率 q = ½ とするモデル M1 と、q が全く不明で q の事前確率として[0,1]区間の一様分布をとるモデル M2 とを考えることにする。200標本を抽出し、そのうち成功が115、失敗が85だとする。尤度は:

( 200 115 ) q 115 ( 1 q ) 85 {\displaystyle {{200 \choose 115}q^{115}(1-q)^{85}}}

したがってモデル M1 で上の結果が出る確率は

P ( X = 115 | M 1 ) = ( 200 115 ) ( 1 2 ) 200 = 0.00595... {\displaystyle P(X=115|M_{1})={200 \choose 115}\left({1 \over 2}\right)^{200}=0.00595...\,}

となるが、モデル M2 でのそれは

P ( X = 115 | M 2 ) = 0 1 ( 200 115 ) q 115 ( 1 q ) 85 d q = 1 201 = 0.00497... {\displaystyle P(X=115|M_{2})=\int _{0}^{1}{200 \choose 115}q^{115}(1-q)^{85}dq={1 \over 201}=0.00497...\,}

ゆえに比は1.197...、つまりごくわずかに M1を支持するものの、「ほとんど意味がない」程度である。

一方、古典的な尤度比検定を考えてみよう。q の最尤推定量 115200 = 0.575 が得られる。これに基づくモデルを M2 として、0.1045...という比が得られ、ゆえに M2 が支持されることになる。M1 を帰無仮説として片側検定を行うと、q = ½ ならば200標本から115またはそれ以上の成功を得る確率は0.0200... であり、両側検定でも成功115回またはそれ以上極端な結果を得る確率は0.0400... だから、「 M1 は信頼水準5%で棄却される」(115は100から2標準偏差以上離れている)というさらに顕著な結果が得られる。

M2 は自由な母数を持つので、M1 よりも複雑で厳密なモデルであるといえる。ここにベイズ因子の価値がある。

再現性

詳細は「再現性の危機」を参照

2017年6月に72人の著名な研究者が、新たな発見をしたと主張する際の証拠の統計的基準の低さが再現性の危機の一因になっているとする論文を発表した。新発見の統計的有意性を評価するために、科学者が好んで用いるP値の閾値は0.05から0.005に引き下げるべきであると、統計学の大家たちは主張する。その一方、イリノイ工科大学計算機科学者Shlomo Argamonは「実験する方法が多数ある限り、どんなに小さいP値の閾値を用いてもその中に一つの実験方法が偶然に有意になる可能性が極めて高い」と新しい方法論的な基準を求める。実際小さいP値の閾値を用いたらお蔵入り問題がより著しくなり、多数の論文が出版できなくなる。その結果、多くの学者たちはP値の使用を停止し、代わりにベイズ因子を多用するようになった[1]

脚注

  1. ^ Chawla, Dalmeet Singh (2017-11). “統計学の大物学者がP値の刷新を提案”. Nature Digest 14 (11): 18–19. doi:10.1038/ndigest.2017.171118. ISSN 1880-0556. https://www.natureasia.com/ja-jp/ndigest/v14/n11/%E7%B5%B1%E8%A8%88%E5%AD%A6%E3%81%AE%E5%A4%A7%E7%89%A9%E5%AD%A6%E8%80%85%E3%81%8CP%E5%80%A4%E3%81%AE%E5%88%B7%E6%96%B0%E3%82%92%E6%8F%90%E6%A1%88/89721. 
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ