ベイズ確率

ベイズ統計学
統計学

理論
許容決定規則ベイズ効率性ベイズ確率確率の解釈ベイズの定理ベイズ因子ベイズ推定ベイジアンネットワーク事前確率事後確率尤度共役事前分布事後予測分布ハイパーパラメータハイパーパラメータの事前分布等確率の原理最大エントロピー原理経験ベイズ法クロムウェルの差止め規則ベルンシュテイン＝フォン・ミーゼス定理シュワルツ情報量規準信用区間最大事後確率推定根源的蓋然論
技法
ベイズ線形回帰ベイズ推定量近似ベイズ計算マルコフ連鎖モンテカルロ法
表話編歴

ベイズ確率（ベイズかくりつ、英: Bayesian probability）とは、確率の概念を解釈したもので、ある現象の頻度や傾向の代わりに、確率を知識の状態^[1]を表す合理的な期待値^[2]、あるいは個人的な信念の定量化と解釈したものである^[3]。

ベイズ確率の解釈は、命題論理を拡張したものであり、真偽が不明な命題を用いた推論を可能にするものと考えられる^[4]。ベイズの考え方では仮説に確率を付与するが、頻度論的な推論では確率を付与せずに仮説を検証するのが一般的である。

ベイズ確率は証拠能力のある確率のカテゴリーに属する。仮説の確率を評価するために、ベイズ確率論者は事前確率を指定する。仮説の確率を評価するために、ベイズの確率論者は事前確率を指定し、新しい関連データ（証拠）に照らし合わせて事後確率に更新する^[5]。ベイジアン解釈では、この計算を行うための標準的な手順と式が用意されている。

ベイジアンという言葉は、18世紀の数学者・神学者であるトーマス・ベイズに由来する。ベイズは、現在ベイズ推定として知られているものを用いて、統計的データ分析の自明でない問題を初めて数学的に扱った人物である^[6]。また、数学者のピエール＝シモン・ラプラスは、現在ではベイズ確率と呼ばれているものを開拓し、普及させた^[6]。

ベイジアンの方法論

ベイズ法は、以下のような概念と手順によって特徴づけられる。

情報不足に起因する不確実性を含む、統計モデルにおける不確実性のすべての原因をモデル化するために、確率変数、より一般的には未知の量^[7]を使用すること（アレトロール的不確実性およびエピステミックな不確実性も参照）。
利用可能な（事前の）情報を考慮して、事前の確率分布を決定する必要がある。
ベイズの定理の逐次使用（逐次ベイズ推定）：より多くのデータが利用可能になった場合、ベイズの公式を用いて事後分布を計算し、その後、事後分布が次の事前分布となる。
頻度主義者にとって、仮説は（真か偽かの）命題であり、頻度主義者にとっての仮説の確率は0か1であるが、ベイズ統計学では、真理値が不確かであれば、仮説に割り当てられる確率も0から1の範囲になる。

歴史

ベイズ確率（およびベイズ統計学）は、ベイズの定理の特別な場合を証明したトーマス・ベイズにちなんだ命名（実際の命名は1950年代）ではあるが、ベイズ自身が現在のようなベイズ確率やベイズ推定の考え方を持っていたかどうかは定かでない。

ベイズ確率の考え方を積極的に用いたのはピエール＝シモン・ラプラス（ベイズの定理の一般的な場合を証明した）で、それを「土星の質量を確率的に見積もる」というような問題に応用した。しかし彼以後は長らくこの考え方は顧みられなかった。土星の質量は推測値だからと言っても確率的に分布するわけではなく、観測誤差の方が確率的に分布するのであると頻度主義では考える。特に19世紀末以降に発展した数理統計学は専ら頻度主義に基づいて厳密な理論を構築した。

確率の主観的解釈（のちにベイズ主義と呼ばれる）は1931年に哲学者・数学者のフランク・ラムゼイによって提唱され、彼は別の主観確率（論理確率）の支持者だったケインズと論争をしているが、彼自身はこれを頻度主義的解釈の単なる補助としか考えなかった。これをさらに厳密に取り上げたのは1937年、統計学者ブルーノ・デ・フィネッティである。さらに初めて詳細な分析を加えたのは1954年、レオナード・ジミー・サヴェッジ（英語版）であって、彼の考え方にはベイズ確率・ベイズ主義という呼び名が適用された。そのほか初期の研究者にはバーナード・クープマン（英語版）、エイブラハム・ウォールドらがいる。これらの研究は現在広く受け入れられるようになってきたが、頻度主義者とベイズ主義者の亀裂は現在でも尾を引いており、両主義の支持者の一部は互いに議論せず共通の学会に参加しないといった状況が続いている。

頻度確率

ベイズ主義の基本的な考え方は、数学的確率論において現れるベイズの定理を、主観的確率におけるデータ集積に応じて改訂し、さらに経験的に解釈し、統計問題に適用することである。このような確率理解に基づいて功利を計算し、合理的意思決定の問題として考えていく。つまり、ベイズの定理における P(B|A) のうち、データ B を得たときの A が成り立つ条件付き確率を求め、新しいデータ B₁, B₂, B₃, …, B_n が得られるたびに、A の生起確率を更新する。この応用としてリチャード・ジェフリーの証拠的意思決定理論も編み出されている。

このような手法は、観測された頻度分布あるいは想定された母集団の割合から導かれるのが確率であるとする頻度確率の概念とは対照的である。また、統計学的方法が大きく異なる場合も多い。ただし、ベイズ主義と頻度主義とで同じ結論が得られる問題も多い。他方、統計学的仮説検定について、ベイズ主義と頻度主義との差が現れやすい。頻度主義では推定したいパラメータは一つの真の値をとると考えるが、ベイズ主義においてはパラメータは確率変数であると考える。

ここで、ベイズ主義者"Bayesian"が考える確率と頻度主義者"Frequentist"が考える確率とが全く異なる値となる例を一つ示す。

ここに1枚のインチキコインがあるとする。すなわち、表か裏のどちらかが出やすくなっている。ただし、どちらが出やすいのかはわからない。では、このコインを投げたとして表が出る確率をどう計算すべきか?

ベイズ主義者が正しいと考えるであろう確率: 表が出る確率は、1⁄2である。; 理由：表と裏のどちらが出やすいのか全く不明である。それ故、表の出る確率も裏の出る確率も全く平等である。それ故、理由不十分の原理により、ともに1⁄2とする以外にない。
頻度主義者が正しいと考えるであろう確率: 表が出る確率は、0から1までのいずれかであるが、1⁄2ではない。; 理由：コインを何度も投げると、［表の出た回数 / 投げた回数］は、ある値に近づく（大数の法則）。それが求める確率である。; ただし、このコインはインチキコインなのだから1⁄2には絶対にならない。

要するに、ベイズ主義者は、その時点で有する情報をもとに計算された確率を重視する。（新たな情報が入手されれば確率は改定される。）

これに対して頻度主義者は、無限回試行を前提とした確率を重視する。

ベイズ推定

詳細は「ベイズ推定」を参照

ベイズの定理を用いて、新しい証拠に照らして命題 $\theta _{i}$ の尤もらしさ（確率）の値 $p_{i}$ を改訂していく方法がベイズ推定である。改訂前の値を事前確率、改訂後を事後確率と呼ぶ。事後確率は最良な推定結果そのものとなる。

例えばラプラスはこの方法で土星の質量を見積もった（土星の質量の推定値の事後確率分布 $p(m_{\text{sat}})$ の期待値 ${\bar {m}}_{\text{sat}}$ を計算した）。

しかし頻度主義による確率の定義では、このような適用はできない。土星質量の推定値は確率変数ではないからである。「土星の質量とはどんな母集団から抽出されたものか?」という問いに答えられなければ、これは頻度主義者の議論の対象にはならない。

応用

ベイズ確率は現在いろいろな方面で応用されている。一方で頻度主義に基づく統計学の理論体系に対しては、かえって実用性を犠牲にしているとのベイジアンからの批判がある。むしろベイズ主義のほうが人間の思考様式になじむというわけである。ベイズ推定は、まず複数の仮説について尤もらしさ（信念の度合）を考え、実験や観測により新しい情報（データ）を収集し、それらを組み合わせてベイズの定理によってその確率を改訂するという点で、科学的方法のモデルとしても提案されている。またベイズ因子（従来の統計学における尤度を用いる方法に似ている）を利用する方法はオッカムの剃刀に対応するものとされている。

ベイズ推定を用いた方法は近年、スパムを見つける方法（ベイジアンフィルタ）として利用され成果を上げている。すでに分かっているスパムの選別法をフィルターに示し、次いで単語の頻度を用いてスパムと必要な電子メールとを識別するのである。

脚注

^ Jaynes, E.T. (1986). “Bayesian Methods: General Background”. In Justice, J. H.. Maximum-Entropy and Bayesian Methods in Applied Statistics. Cambridge: Cambridge University Press
^ Cox, R.T. (1946). “Probability, Frequency, and Reasonable Expectation”. American Journal of Physics 14 (1): 1–10. Bibcode: 1946AmJPh..14....1C. doi:10.1119/1.1990764.
^ de Finetti, Bruno (2017). Theory of Probability: A critical introductory treatment. Chichester: John Wiley & Sons Ltd.. ISBN 9781119286370
^ Hailperin, Theodore (1996). Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications. London: Associated University Presses. ISBN 0934223459
^ Paulos (2011年8月5日). “The Mathematics of Changing Your Mind [by Sharon Bertsch McGrayne]”. 2011年8月6日閲覧。
^ ^a ^b Stigler, Stephen M. (March 1990). The history of statistics. Harvard University Press. ISBN 9780674403413
^ Dupré, Maurice J.; Tipler, Frank J. (2009). “New axioms for rigorous Bayesian probability”. Bayesian Analysis 4 (3): 599–606. doi:10.1214/09-BA422. http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856.

関連項目

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像

統計図表

生存分析

歴史

統計学の創始者
確率論と統計学の歩み

応用

出版物

統計学に関する学術誌一覧
重要な出版物

全般

その他

カテゴリ

確率論

確率の歴史

確率の定義

客観確率	統計的確率古典的確率公理的確率
主観確率	ベイズ確率
確率の拡張	外確率負の確率

基礎概念

モデル	試行結果事象標本空間確率測度確率空間
確率変数	確率変数の収束
確率分布	離散確率分布連続確率分布同時分布周辺分布条件付き確率分布独立同分布
関数	確率質量関数確率密度関数累積分布関数特性関数
用語	独立期待値モーメント条件付き確率条件付き期待値