一般化線形モデル

曖昧さ回避 この項目では、一般化線形モデル (generalized linear model)について説明しています。一般線形モデル (general linear model)については「一般線形モデル」をご覧ください。
統計学
回帰分析
モデル
  • 一般化線形モデル
  • 離散選択(英語版)
  • ロジスティック回帰
  • 多項ロジット(英語版)
  • 混合ロジット(英語版)
  • プロビット(英語版)
  • 多項プロビット(英語版)
  • 順序ロジット(英語版)
  • 順序プロビット(英語版)
  • ポアソン(英語版)
  • 非線形回帰
  • ノンパラメトリック(英語版)
  • セミパラメトリック(英語版)
  • ロバスト(英語版)
  • 分位点(英語版)
  • 等調(英語版)
  • 主成分(英語版)
  • 最小角度(英語版)
  • 局所
  • 折れ線(英語版)
  • 変数誤差(英語版)
推定
  • 普通(英語版)
  • 加重(英語版)
  • 一般化(英語版)
  • 最小絶対偏差(英語版)
  • 繰返し加重(英語版)
  • ベイズ(英語版)
  • ベイズ多変量(英語版)
背景

一般化線形モデル (いっぱんかせんけいモデル、: Generalized linear model、GLM)は、残差を任意の分布とした線形モデル。似たものとして一般線形モデルがあるが、これは残差が多変量正規分布に従うモデル。一般化線形モデルには線形回帰、ポアソン回帰、ロジスティック回帰などが含まれる。1972年にネルダーとウェダーバーンによって提唱された[1]

概要

確率変数 Y {\displaystyle Y} 指数型分布族である、つまり確率密度関数 f ( y ) {\displaystyle f(y)} は正準 (canonical) パラメーター θ {\displaystyle \theta } , 分散 (dispersion) パラメーター ϕ {\displaystyle \phi } とスカラー関数 a ( θ ) {\displaystyle a(\theta )} , c ( y , θ ) {\displaystyle c(y,\,\theta )} を用いて指数型

f ( y ; θ , ϕ ) = exp { y θ a ( θ ) ϕ + c ( y , ϕ ) } {\displaystyle f(y;\theta ,\phi )=\exp \left\{{\frac {y\,\theta -a(\theta )}{\phi }}+c(y,\phi )\right\}}

で表すことができるものとする。

一般化線形モデルでは、指数型分布族の正準パラメーター θ {\displaystyle \theta } について、リンク関数 (link function) と呼ばれる滑らかな関数 g ( θ ) {\displaystyle g(\theta )} と、別の確率変数 X {\displaystyle \mathbf {X} } の実現値 x {\displaystyle \mathbf {x} } とを用いて、 g ( θ ) = x T β {\displaystyle g(\theta )=\mathbf {x} ^{T}\,{\boldsymbol {\beta }}} と表すことができるものとする。

一般化線型モデルは下記の3つの要素から構成される。

1. 指数型分布族の確率分布
2. 線形予測子 (linear predictor) η = x T β {\displaystyle \eta =\mathbf {x} ^{T}{\boldsymbol {\beta }}}
3. リンク関数 (link function) g {\displaystyle g} such that g ( θ ) = η {\displaystyle g(\theta )=\eta }

指数分布族の性質

下記のように尤度関数を定める。

L log f ( y ; θ , ϕ ) = y θ a ( θ ) ϕ + c ( y , ϕ ) {\displaystyle L\equiv \log {f(y;\theta ,\phi )}={\frac {y\,\theta -a(\theta )}{\phi }}+c(y,\phi )}

このとき、下記等式が成立する。

E ( L θ ) = 0 , E ( 2 L θ 2 ) = E ( L θ ) 2 {\displaystyle E\left({\frac {\partial L}{\partial \theta }}\right)=0,\;E\left({\frac {\partial ^{2}L}{\partial \theta ^{2}}}\right)=-E\left({\frac {\partial L}{\partial \theta }}\right)^{2}}

この等式を用いて計算すると、確率変数 Y {\displaystyle Y} 平均 a ( θ ) {\displaystyle a'(\theta )} 、分散は ϕ a ( θ ) {\displaystyle \phi \,a''(\theta )} であることが分かる。

下記の他、多くの確率分布が指数分布族に分類される。

  • 正規分布
  • ベルヌーイ分布
  • ポアソン分布
  • 二項分布
  • ガウス分布

実例

正規分布に従うモデル

既知の値 σ 2 {\displaystyle \sigma ^{2}} を用いて a ( θ ) = θ 2 / 2 {\displaystyle a(\theta )=\theta ^{2}/2} , ϕ = σ 2 {\displaystyle \phi =\sigma ^{2}} , c ( y , ϕ ) = ( y 2 / σ 2 + log 2 π σ 2 ) / 2 {\displaystyle c(y,\,\phi )=-\left(y^{2}/\sigma ^{2}+\log {2\pi \sigma ^{2}}\right)/2} と表されるとき、 f ( y ; θ ) = 1 2 π σ exp ( ( y θ ) 2 2 σ 2 ) {\displaystyle f(y;\theta )={\frac {1}{{\sqrt {2\pi }}\sigma }}\exp {\left(-{\frac {(y-\theta )^{2}}{2\sigma ^{2}}}\right)}} は平均 θ {\displaystyle \theta } , 分散 σ 2 {\displaystyle \sigma ^{2}} 正規分布に相当する。

リンク関数として g ( θ ) = θ {\displaystyle g(\theta )=\theta } (正準リンク<canonical link>とよぶ) を取るとき、これは、正規線型モデル (通常の線型回帰) に相当する。平均 θ {\displaystyle \theta } x T β {\displaystyle \mathbf {x} ^{T}\,{\boldsymbol {\beta }}} で与えられる。

ベルヌーイ分布に従うモデル

p = e θ / ( 1 + e θ ) {\displaystyle p=e^{\theta }/(1+e^{\theta })} を用いて a ( θ ) = log ( 1 p ) {\displaystyle a(\theta )=-\log {(1-p)}} , ϕ = 1 {\displaystyle \phi =1} , c = 0 {\displaystyle c=0} と表されるとき、 f ( y ; θ ) = p y ( 1 p ) 1 y {\displaystyle f(y;\theta )=p^{y}(1-p)^{1-y}} は生起確率 p {\displaystyle p} ベルヌーイ分布に相当する。

リンク関数として g ( θ ) = θ {\displaystyle g(\theta )=\theta } を取るとき、これはロジスティック回帰モデル (logistic regression model) に相当する。 Y = 1 , 0 {\displaystyle Y=1,0} の確率は、それぞれ、

P ( Y = 1 x ) = exp ( x T β ) 1 + exp ( x T β ) {\displaystyle P(Y=1\mid \mathbf {x} )={\frac {\exp {(\mathbf {x} ^{T}\,{\boldsymbol {\beta }})}}{1+\exp {(\mathbf {x} ^{T}\,{\boldsymbol {\beta }})}}}}

P ( Y = 0 x ) = 1 1 + exp ( x T β ) {\displaystyle P(Y=0\mid \mathbf {x} )={\frac {1}{1+\exp {(\mathbf {x} ^{T}\,{\boldsymbol {\beta }})}}}}

で与えられる。

リンク関数として g ( θ ) = ψ 1 ( p ) {\displaystyle g(\theta )=\psi ^{-1}(p)} (ただし、 ψ {\displaystyle \psi } は標準正規分布の累積分布関数) を取るとき、これはプロビット回帰モデルに相当する。 p = ψ ( x T β ) {\displaystyle p=\psi (\mathbf {x} ^{T}\,{\boldsymbol {\beta }})} となる。

パラメーターの決定には、ニュートン法を用いた最尤法などがある。

脚注

  1. ^ Nelder, John; Wedderburn, Robert (1972). “Generalized Linear Models”. Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. 

参考文献

  • McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. ISBN 0-412-31760-5 
  • Henrik Madsen and Poul Thyregod (2011). Introduction to General and Generalized Linear Models. Chapman & Hall/CRC. ISBN 978-1-4200-9155-7 
  • Julia でデータサイエンス 一般化線形モデルにおける各種診断プロットの描画法の Julia コード

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
スタブアイコン

この項目は、統計学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(プロジェクト:数学/Portal:数学)。

  • 表示
  • 編集
典拠管理データベース: 国立図書館 ウィキデータを編集
  • フランス
  • BnF data