尤度方程式

尤度方程式(ゆうどほうていしき、: likelihood equation)とは、統計学において、対数尤度関数極値条件を与える方程式の事[1][2]統計的推定法の一つである最尤法において、尤度関数を最大化する最尤推定値を求める際に用いられる。

概要

独立同分布を満たす n {\displaystyle n} 個の確率変数 D = { D i i { 1 , . . , n } } {\displaystyle {\boldsymbol {D}}=\{D_{i}\mid i\in \{1,..,n\}\}} とその観測値 d = { d i i { 1 , . . , n } } {\displaystyle {\boldsymbol {d}}=\{d_{i}\mid i\in \{1,..,n\}\}} を定義する。すなわち真の分布から n {\displaystyle n} 個の観測値(データ)が無作為抽出された状況を考える。

ここで確率密度関数 f ( X | θ ) {\displaystyle f(X|{\boldsymbol {\theta }})} に従う確率モデルを導入する。ここで θ = ( θ 1 , . . , θ p ) {\displaystyle {\boldsymbol {\theta }}={(\theta _{1},..,\theta _{p})}} は分布パラメータ群であり、パラメータ空間Θ ⊂ Rpに値を持つ。この確率モデルが d {\displaystyle {\boldsymbol {d}}} を最も良く説明する θ {\displaystyle {\boldsymbol {\theta }}} を求めたい。ゆえに最尤推定をおこなう。

このとき独立同分布条件により、尤度関数 L ( θ | d ) {\displaystyle L({\boldsymbol {\theta }}|{\boldsymbol {d}})} と対数尤度関数 l ( θ | d ) {\displaystyle l({\boldsymbol {\theta }}|{\boldsymbol {d}})} は以下で定義される。

L ( θ | d ) = i = 1 n f ( X = d i | θ ) {\displaystyle L({\boldsymbol {\theta }}|{\boldsymbol {d}})=\prod _{i=1}^{n}f(X=d_{i}|{\boldsymbol {\theta }})}
l ( θ | d ) = ln L ( θ | d ) = i = 1 n ln f ( X = d i | θ ) {\displaystyle l({\boldsymbol {\theta }}|{\boldsymbol {d}})=\ln {L({\boldsymbol {\theta }}|{\boldsymbol {d}})}=\sum _{i=1}^{n}\ln {f(X=d_{i}|{\boldsymbol {\theta }})}}

すなわちあるデータ群に対するモデルの尤度関数は、各観測値に対する尤度関数の積(対数尤度の場合は和)となる。

最尤法では対数尤度関数を最大化する θ {\displaystyle {\boldsymbol {\theta }}} が最尤推定値 θ ^ {\displaystyle {\hat {\boldsymbol {\theta }}}} として定まる。このとき θ ^ {\displaystyle {\hat {\boldsymbol {\theta }}}} は次の極値条件を満たす。

θ l ( θ | d ) = 0 {\displaystyle {\frac {\partial }{\partial {\boldsymbol {\theta }}}}l({\boldsymbol {\theta }}|{\boldsymbol {d}})=\mathbf {0} }

この方程式を尤度方程式という。左辺の勾配ベクトル:

S ( d , θ ) := θ l ( θ | d ) {\displaystyle \mathbf {S} ({\boldsymbol {d}},{\boldsymbol {\theta }}):={\frac {\partial }{\partial {\boldsymbol {\theta }}}}l({\boldsymbol {\theta }}|{\boldsymbol {d}})}

は、スコア関数、もしくは単にスコアと呼ばれる。多くの場合、最尤推定値の推定は、尤度方程式を解く問題、すなわち、スコアをゼロとするパラメータθ∈ Θを求める問題に帰着する。

正規分布

Xi (i=1,..,n)が平均をμ、分散をσ2とする正規分布に従うとする(X ∼ N(μ, σ2))。このとき、対数尤度関数は

l ( μ , σ 2 , x ) = n 2 ln 2 π n 2 ln σ 2 1 2 σ 2 i = 1 n ( x i μ ) 2 {\displaystyle l(\mu ,\sigma ^{2},\mathbf {x} )=-{\frac {n}{2}}\ln {2\pi }-{\frac {n}{2}}\ln {\sigma ^{2}}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}

であり、尤度方程式は

l ( μ , σ 2 , x ) μ = 1 σ 2 i = 1 n ( x i μ ) = 0 {\displaystyle {\frac {\partial l(\mu ,\sigma ^{2},\mathbf {x} )}{\partial \mu }}={\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )=0}
l ( μ , σ 2 , x ) σ 2 = n 2 σ 2 + 1 2 ( σ 2 ) 2 i = 1 n ( x i μ ) 2 = 0 {\displaystyle {\frac {\partial l(\mu ,\sigma ^{2},\mathbf {x} )}{\partial \sigma ^{2}}}=-{\frac {n}{2\sigma ^{2}}}+{\frac {1}{2(\sigma ^{2})^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}=0}

となる。これらを整理すると最尤推定値として

μ ^ = 1 n i = 1 n x i {\displaystyle {\hat {\mu }}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}
σ 2 ^ = 1 n i = 1 n ( x i μ ) 2 {\displaystyle {\hat {\sigma ^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}

を得る。

ワイブル分布

Xi (i=1,..,n)が形状パラメータをβ、尺度パラメータをηとするワイブル分布に従うとする。このとき、対数尤度関数は

l ( η , β , x ) = n ln β n β ln η + ( β 1 ) i = 1 n ln x i 1 η β i = 1 n x i β {\displaystyle l(\eta ,\beta ,\mathbf {x} )=n\ln {\beta }-n\beta \ln {\eta }+(\beta -1)\sum _{i=1}^{n}\ln {x_{i}}-{\frac {1}{\eta ^{\beta }}}\sum _{i=1}^{n}x_{i}^{\beta }}

であり、尤度方程式は

l ( η , β , x ) η = n β η β η ( β + 1 ) i = 1 n x i β = 0 {\displaystyle {\frac {\partial l(\eta ,\beta ,\mathbf {x} )}{\partial \eta }}=-{\frac {n\beta }{\eta }}-{\frac {\beta }{\eta ^{(\beta +1)}}}\sum _{i=1}^{n}x_{i}^{\beta }=0}
l ( η , β , x ) β = n β n ln η + i = 1 n ln x i + ln η η β i = 1 n x i β + 1 η β i = 1 n ln x i x i β = 0 {\displaystyle {\frac {\partial l(\eta ,\beta ,\mathbf {x} )}{\partial \beta }}={\frac {n}{\beta }}-n\ln {\eta }+\sum _{i=1}^{n}\ln {x_{i}}+{\frac {\ln {\eta }}{\eta ^{\beta }}}\sum _{i=1}^{n}x_{i}^{\beta }+{\frac {1}{\eta ^{\beta }}}\sum _{i=1}^{n}\ln {x_{i}}x_{i}^{\beta }=0}

となる。 これらを整理すると最尤推定値ˆηˆβが満たすべき関係式

η ^ = ( 1 n i = 1 n x i β ^ ) 1 β ^ {\displaystyle {\hat {\eta }}=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{\hat {\beta }}\right)^{\frac {1}{\hat {\beta }}}}
1 β ^ + 1 n i = 1 n ln x i i = 1 n x i β ^ ln x i i = 1 n x i β ^ = 0 {\displaystyle {\frac {1}{\hat {\beta }}}+{\frac {1}{n}}\sum _{i=1}^{n}\ln {x_{i}}-{\frac {\sum _{i=1}^{n}x_{i}^{\hat {\beta }}\ln {x_{i}}}{\sum _{i=1}^{n}x_{i}^{\hat {\beta }}}}=0}

を得る。第二式を満たすˆβを数値的に求めれば、第一式よりˆηも定まる。

ガンマ分布

Xi (i=1,..,n)が形状パラメータをα、尺度パラメータをβとするガンマ分布に従うとする(X ∼ Γ(α, β))。このとき、対数尤度関数は

l ( α , β , x ) = n ln Γ ( α ) n α ln β + ( α 1 ) i = 1 n ln x i 1 β i = 1 n x i {\displaystyle l(\alpha ,\beta ,\mathbf {x} )=-n\ln {\Gamma (\alpha )}-n\alpha \ln {\beta }+(\alpha -1)\sum _{i=1}^{n}\ln {x_{i}}-{\frac {1}{\beta }}\sum _{i=1}^{n}x_{i}}

であり、尤度方程式は

l ( α , β , x ) α = n ψ ( α ) n ln β + ( α 1 ) i = 1 n ln x i = 0 {\displaystyle {\frac {\partial l(\alpha ,\beta ,\mathbf {x} )}{\partial \alpha }}=-n\psi (\alpha )-n\ln {\beta }+(\alpha -1)\sum _{i=1}^{n}\ln {x_{i}}=0}
l ( α , β , x ) β = n α β + 1 β 2 i = 1 n x i = 0 {\displaystyle {\frac {\partial l(\alpha ,\beta ,\mathbf {x} )}{\partial \beta }}=-{\frac {n\alpha }{\beta }}+{\frac {1}{\beta ^{2}}}\sum _{i=1}^{n}x_{i}=0}

となる。 ここではψ(α)はガンマ関数の対数微分であるディガンマ関数を表す。これらを整理すると最尤推定値ˆβˆαが満たすべき関係式

β ^ = 1 α ^ 1 n i = 1 n x i {\displaystyle {\hat {\beta }}={\frac {1}{\hat {\alpha }}}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}}
α ^ = 1 n i = 1 n x i ( i = 1 n x i ) 1 n exp ( ψ ( α ^ ) ) {\displaystyle {\hat {\alpha }}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}x_{i}}{\left(\prod _{i=1}^{n}x_{i}\right)^{\frac {1}{n}}}}\exp {(\psi ({\hat {\alpha }}))}}

を得る。第二式を満たすˆαを数値的に求めれば、第一式よりˆβも定まる。

数値解法

尤度方程式が解析的に解けない場合、S(θ*)=0を満たすθ*∈ Θを数値的に求めることが必要となる[3]

ニュートン=ラフソン法

ニュートン=ラフソン法では、反復計算により、最適解θ*を求める。反復計算のkステップ目で求まったパラメータをθ(k)とする。スコア関数はテイラー展開により、

S ( x , θ ) S ( x , θ ( k ) ) I ( θ ( k ) ) ( θ θ ( k ) ) {\displaystyle \mathbf {S} (\mathbf {x} ,{\boldsymbol {\theta }})\simeq \mathbf {S} (\mathbf {x} ,{\boldsymbol {\theta }}^{(k)})-I({\boldsymbol {\theta }}^{(k)})({\boldsymbol {\theta }}-{\boldsymbol {\theta }}^{(k)})}

一次近似できる。ここでI(θ)は、

I ( θ ) = 2 θ θ T ln L ( θ , x ) {\displaystyle I({\boldsymbol {\theta }})=-{\frac {\partial ^{2}}{\partial {\boldsymbol {\theta }}\partial {\boldsymbol {\theta }}^{T}}}\ln {L({\boldsymbol {\theta }},\mathbf {x} )}}

で与えられる、対数尤度関数のヘッセ行列の符号を変えた行列である。ニュートン=ラフソン法では、左辺をゼロとおくことで、θ(k+1)を与える更新式

θ ( k + 1 ) = θ ( k ) + I ( θ ( k ) ) 1 S ( x , θ ( k ) ) {\displaystyle {\boldsymbol {\theta }}^{(k+1)}={\boldsymbol {\theta }}^{(k)}+I({\boldsymbol {\theta }}^{(k)})^{-1}\mathbf {S} (\mathbf {x} ,{\boldsymbol {\theta }}^{(k)})}

を定める。

ニュートン=ラフソン法は、最適解θ*の近傍で二次収束するため、収束が早い。すなわち、θ*の十分近くの適切な初期値を与えれば、

| | θ ( k ) θ | | K | | θ ( k ) θ | | 2 {\displaystyle ||{\boldsymbol {\theta }}^{(k)}-{\boldsymbol {\theta }}^{\ast }||\leq K||{\boldsymbol {\theta }}^{(k)}-{\boldsymbol {\theta }}^{\ast }||^{2}}

を満たす正の定数Kが存在する。

一方で、ニュートン=ラフソン法は各ステップで、対数尤度関数のヘッセ行列から定まるI(θ)の逆行列を計算する、もしくは、p次の連立方程式を解くことが必要となる。これらの計算量O(p3)オーダーであり、パラメータ数pが増えると、計算負荷が急激に増える。また、初期値の設定によっては、I(θ)正定値とはならず、最適解θ*に収束しない場合がある。

フィッシャーのスコア法

ニュートン=ラフソン法においては、各ステップで負の対数尤度関数の二階微分であるI(θ)を計算する必要がある。このI(θ)を求める計算は、場合によっては煩雑となる。分布によっては、I(θ)期待値であるフィッシャー情報行列

J ( θ ) = E θ [ 2 θ θ T ln L ( θ , x ) ] = E θ [ θ ln L ( θ , x ) θ T ln L ( θ , x ) ] {\displaystyle J({\boldsymbol {\theta }})=E_{\boldsymbol {\theta }}\left[-{\frac {\partial ^{2}}{\partial {\boldsymbol {\theta }}\partial {\boldsymbol {\theta }}^{T}}}\ln {L({\boldsymbol {\theta }},\mathbf {x} )}\right]=E_{\boldsymbol {\theta }}\left[{\frac {\partial }{\partial {\boldsymbol {\theta }}}}\ln {L({\boldsymbol {\theta }},\mathbf {x} }){\frac {\partial }{\partial {\boldsymbol {\theta }}^{T}}}\ln {L({\boldsymbol {\theta }},\mathbf {x} )}\right]}

が、より簡潔に求まるため、I(θ)J(θ)で代用し、反復計算を

θ ( k + 1 ) = θ ( k ) + J ( θ ( k ) ) 1 S ( x , θ ( k ) ) {\displaystyle {\boldsymbol {\theta }}^{(k+1)}={\boldsymbol {\theta }}^{(k)}+J({\boldsymbol {\theta }}^{(k)})^{-1}\mathbf {S} (\mathbf {x} ,{\boldsymbol {\theta }}^{(k)})}

とする。この方法をフィッシャーのスコア法と呼ぶ。

フィッシャー情報行列は非負定値であるため、ニュートン=ラフソン法でのI(θ)の正定値性の問題を回避することができる。

脚注

  1. ^ Lehmann 1983, §6.
  2. ^ Epps 2013, §7.
  3. ^ Monahan 2011, §9.

参考文献

  • Epps, T. W. (2013). Probability and Statistical Theory for Applied Researchers. World Scientific Pub Co Inc. ISBN 978-9814513159 
  • Lehmann, E. L. (1983). Theory of Point Estimation. John Wiley & Sons Inc. ISBN 978-0471058496 
  • Monahan, John F. (2011). Numerical Methods of Statistics. Cambridge Series in Statistical and Probabilistic Mathematics (2nd ed.). Cambridge University Press. ISBN 978-0521139519 

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ