最大事後確率

統計学
ベイズ統計学
理論
技法

最大事後確率(さいだいじごかくりつ、: maximum a posteriori, MAP推定は、統計学において、実測データに基づいて未知の量の点推定を行う手法である。ロナルド・フィッシャー最尤推定 (MLE) に密接に関連するが、推定したい量の事前分布を利用して最適化問題を解き確率が最大の結果を得る。したがってMAP推定は、最尤推定に正則化をつけた物と見ることもできる。

概要

x {\displaystyle x} の観測に基づいて、未知の母集団パラメータ θ {\displaystyle \theta } を推定したいとする。 x {\displaystyle x} の標本分布を f {\displaystyle f} とすると、母集団パラメータを θ {\displaystyle \theta } としたときの x {\displaystyle x} の確率は f ( x | θ ) {\displaystyle f(x|\theta )} となる。すると

θ f ( x | θ ) {\displaystyle \theta \mapsto f(x|\theta )\!}

という関数は尤度関数であり、

θ ^ M L ( x ) = a r g   m a x θ f ( x | θ ) {\displaystyle {\hat {\theta }}_{\mathrm {ML} }(x)=\mathop {\mathrm {arg~max} } _{\theta }f(x|\theta )\!}

θ {\displaystyle \theta } の最尤推定である。

ここで、 θ {\displaystyle \theta } の事前分布を g {\displaystyle g} とする。すると、 θ {\displaystyle \theta } ベイズ推定における確率変数として扱える。 θ {\displaystyle \theta } 事後確率は次のようになる。

θ f ( x | θ ) g ( θ ) Θ f ( x | θ ) g ( θ ) d θ {\displaystyle \theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}\!}

ここで g {\displaystyle g} θ {\displaystyle \theta } の密度関数、 Θ {\displaystyle \Theta } g {\displaystyle g} の定義域である。これはベイズの定理の直接的な応用である。

最大事後確率推定の手法では、次に θ {\displaystyle \theta } をこの確率変数の事後分布の最頻値として推定する。

θ ^ M A P ( x ) = a r g   m a x θ f ( x | θ ) g ( θ ) Θ f ( x | θ ) g ( θ ) d θ = a r g   m a x θ f ( x | θ ) g ( θ ) {\displaystyle {\hat {\theta }}_{\mathrm {MAP} }(x)=\mathop {\mathrm {arg~max} } _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}=\mathop {\mathrm {arg~max} } _{\theta }f(x|\theta )\,g(\theta )\!}

事後分布の分母は θ {\displaystyle \theta } に依存していないので、最適化には何の役割も果たさない。 θ {\displaystyle \theta } のMAP推定で事前分布 g {\displaystyle g} が一様分布の場合の結果は、最尤推定に一致する。MAP推定は、一様損失関数におけるベイズ推定関数である。

MAP推定の計算は解析的に解くか数値的に計算できる。

正規分布での例

ある並び ( x 1 , , x n ) {\displaystyle (x_{1},\dots ,x_{n})} の独立な確率変数 N ( μ , σ v 2 ) {\displaystyle N(\mu ,\sigma _{v}^{2})} があり、 μ {\displaystyle \mu } の事前分布は N ( 0 , σ m 2 ) {\displaystyle N(0,\sigma _{m}^{2})} で与えられるとする。ここで μ {\displaystyle \mu } のMAP推定値を求める。

最大化すべき関数は次のようになる。

π ( μ ) L ( μ ) = 1 2 π σ m exp ( 1 2 ( μ σ m ) 2 ) j = 1 n 1 2 π σ v exp ( 1 2 ( x j μ σ v ) 2 ) {\displaystyle \pi (\mu )L(\mu )={\frac {1}{{\sqrt {2\pi }}\sigma _{m}}}\exp \left(-{\frac {1}{2}}\left({\frac {\mu }{\sigma _{m}}}\right)^{2}\right)\prod _{j=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma _{v}}}\exp \left(-{\frac {1}{2}}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right)}

これの対数を取る。

log π ( μ ) L ( μ ) = log 2 π σ m 1 2 ( μ σ m ) 2 log 2 π σ v 1 2 j = 1 n ( x j μ σ v ) 2 = 1 2 { ( μ σ m ) 2 + j = 1 n ( x j μ σ v ) 2 } log 2 π σ m σ v {\displaystyle {\begin{aligned}\log \pi (\mu )L(\mu )&=-\log {\sqrt {2\pi }}\sigma _{m}-{\frac {1}{2}}\left({\frac {\mu }{\sigma _{m}}}\right)^{2}-\log {\sqrt {2\pi }}\sigma _{v}-{\frac {1}{2}}\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\\&=-{\frac {1}{2}}\left\{\left({\frac {\mu }{\sigma _{m}}}\right)^{2}+\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right\}-\log 2\pi \sigma _{m}\sigma _{v}\end{aligned}}}

これは、 μ {\displaystyle \mu } を動かし次の式を最小化することと等価である。

j = 1 n ( x j μ σ v ) 2 + ( μ σ m ) 2 {\displaystyle \sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}+\left({\frac {\mu }{\sigma _{m}}}\right)^{2}}

従って μ {\displaystyle \mu } のMAP推定値は以下のようになる。

μ ^ MAP = σ m 2 n σ m 2 + σ v 2 j = 1 n x j {\displaystyle {\hat {\mu }}_{\text{MAP}}={\frac {\sigma _{m}^{2}}{n\sigma _{m}^{2}+\sigma _{v}^{2}}}\sum _{j=1}^{n}x_{j}}

σ m {\displaystyle \sigma _{m}\to \infty } の場合を無情報事前分布(: non-informative prior)と呼び、この例では μ ^ MAP μ ^ MLE = 1 n j = 1 n x j {\displaystyle {\hat {\mu }}_{\text{MAP}}\to {\hat {\mu }}_{\text{MLE}}={\frac {1}{n}}\sum _{j=1}^{n}x_{j}} である。

σ m < {\displaystyle \sigma _{m}<\infty } の場合は、 μ {\displaystyle \mu } の事前分布の付与はL2正則化と同じ式になる。

参考文献

  • M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970).
  • Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker.

関連項目

脚注


標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ