混合モデル

曖昧さ回避 英語でmixture modelと呼ばれる「混合分布モデル(英語版)」とは異なります。

混合モデル(こんごうモデル、: mixed model)とは、固定効果(fixed effect)と変量効果(random effect)を共に含む(ゆえに混合効果と呼ばれる)統計学的モデルであり、医学・生物学・社会科学等の広い領域に用いられる。特に縦断研究においてある項目を繰り返し観察する反復測定デザイン(英語版)等で有用である。欠測データの取り扱いに優れ、混合効果モデルは多くの場合、反復測定分散分析等の伝統的なアプローチよりも望ましい。

歴史と現状

1918年、ロナルド・フィッシャーが関連する項目間の特性を変量効果モデルとして導き出した事に由来する[1]。1950年代、チャールズ・ヘンダーソンが固定効果モデルである最良線形不偏推定量(BLUE)および変量効果モデルである最良線形不偏予測量(英語版)(BLUP)を規定した[2][3][4][5]

その後、混合モデルは最尤推定量、非線形混合効果モデル、欠測のあるモデル、混合効果モデルのベイズ推定量の計算等に用いられるようになった。混合モデルは各測定点での値が相互に影響し合うケースに用いられ、現在ではヒトに対する臨床試験や動物実験で汎用されているほか、工業統計においても使用されている[要出典]

定義

行列を用いて以下の様に記述する。

y = X β + Z u + ϵ {\displaystyle {\boldsymbol {y}}=X{\boldsymbol {\beta }}+Z{\boldsymbol {u}}+{\boldsymbol {\epsilon }}}

ここで、

  • y {\displaystyle {\boldsymbol {y}}} は既知の測定値ベクトルであり、その平均は E ( y ) = X β {\displaystyle E({\boldsymbol {y}})=X{\boldsymbol {\beta }}} である。
  • β {\displaystyle {\boldsymbol {\beta }}} は固定効果の未知ベクトルである。
  • u {\displaystyle {\boldsymbol {u}}} は変量効果の未知ベクトルであり、その平均は E ( u ) = 0 {\displaystyle E({\boldsymbol {u}})={\boldsymbol {0}}} で、分散共分散行列は var ( u ) = G {\displaystyle \operatorname {var} ({\boldsymbol {u}})=G} である。
  • ϵ {\displaystyle {\boldsymbol {\epsilon }}} 測定誤差の未知ベクトルであり、その平均は E ( ϵ ) = 0 {\displaystyle E({\boldsymbol {\epsilon }})={\boldsymbol {0}}} で、分散は var ( ϵ ) = R {\displaystyle \operatorname {var} ({\boldsymbol {\epsilon }})=R} である。
  • X {\displaystyle X} ならびに Z {\displaystyle Z} は各々、 y {\displaystyle {\boldsymbol {y}}} から β {\displaystyle {\boldsymbol {\beta }}} ならびに u {\displaystyle {\boldsymbol {u}}} の測定値に関する既知の計画行列である。

推定

y {\displaystyle {\boldsymbol {y}}} u {\displaystyle {\boldsymbol {u}}} の結合密度関数は次の様に書ける: f ( y , u ) = f ( y | u ) f ( u ) {\displaystyle f({\boldsymbol {y}},{\boldsymbol {u}})=f({\boldsymbol {y}}|{\boldsymbol {u}})\,f({\boldsymbol {u}})}

u N ( 0 , G ) {\displaystyle {\boldsymbol {u}}\sim {\mathcal {N}}({\boldsymbol {0}},G)} ϵ N ( 0 , R ) {\displaystyle {\boldsymbol {\epsilon }}\sim {\mathcal {N}}({\boldsymbol {0}},R)} および C o v ( u , ϵ ) = 0 {\displaystyle Cov({\boldsymbol {u}},{\boldsymbol {\epsilon }})={\boldsymbol {0}}} には正規分布を仮定し、 β {\displaystyle {\boldsymbol {\beta }}} u {\displaystyle {\boldsymbol {u}}} 同時密度関数(結合密度関数とも)を最大化すると、ヘンダーソンの“mixed model equations (MME)”が得られる[6][2][4]

( X R 1 X X R 1 Z Z R 1 X Z R 1 Z + G 1 ) ( β ^ u ^ ) = ( X R 1 y Z R 1 y ) {\displaystyle {\begin{pmatrix}X'R^{-1}X&X'R^{-1}Z\\Z'R^{-1}X&Z'R^{-1}Z+G^{-1}\end{pmatrix}}{\begin{pmatrix}{\hat {\boldsymbol {\beta }}}\\{\hat {\boldsymbol {u}}}\end{pmatrix}}={\begin{pmatrix}X'R^{-1}{\boldsymbol {y}}\\Z'R^{-1}{\boldsymbol {y}}\end{pmatrix}}}

このMMEを解く時、 β ^ {\displaystyle \textstyle {\hat {\boldsymbol {\beta }}}} u ^ {\displaystyle \textstyle {\hat {\boldsymbol {u}}}} はそれぞれ、 β {\displaystyle {\boldsymbol {\beta }}} u {\displaystyle {\boldsymbol {u}}} の最良線形不偏推定量(BLUE)と最良線形不偏予測量(BLUP)である。これは、目的変数の条件付き分散が単位行列のスカラー倍にならない場合のガウス=マルコフの定理の解である。条件付き分散が既知である時、逆分散の加重最小二乗推定値はBLUEであるが、条件付き分散が既知であることは稀である。従ってMMEを解く時は、分散と加重推定値を同時推定する必要がある。

この様な混合モデルに適用する方法の一つとして、EMアルゴリズム[7]がある。EMアルゴリズムにおいては分散成分が結合尤度における未観測の局外パラメータ(英語版)として扱われる。現在は、R言語(「nlme」ライブラリの「lme」関数)やSASシステム(英語版)(「proc mixed」プロシジャ)に実装されている。混合モデル式の解法として、誤差が正規分布する場合は最尤推定法を用いる[8][9]

出典

  1. ^ Fisher, RA (1918). “The correlation between relatives on the supposition of Mendelian inheritance”. Transactions of the Royal Society of Edinburgh 52 (2): 399–433. doi:10.1017/S0080456800012163. 
  2. ^ a b Robinson, G.K. (1991). “That BLUP is a Good Thing: The Estimation of Random Effects”. Statistical Science 6 (1): 15–32. doi:10.1214/ss/1177011926. JSTOR 2245695. 
  3. ^ C. R. Henderson, Oscar Kempthorne, S. R. Searle and C. M. von Krosigk (1959). “The Estimation of Environmental and Genetic Trends from Records Subject to Culling”. Biometrics (International Biometric Society) 15 (2): 192–218. doi:10.2307/2527669. JSTOR 2527669. 
  4. ^ a b L. Dale Van Vleck. “Charles Roy Henderson, April 1, 1911 – March 14, 1989”. United States National Academy of Sciences. (英語版より翻訳のため不明)閲覧。
  5. ^ McLean, Robert A.; Sanders, William L.; Stroup, Walter W. (1991). “A Unified Approach to Mixed Linear Models”. The American Statistician (American Statistical Association) 45 (1): 54–64. doi:10.2307/2685241. JSTOR 2685241. 
  6. ^ Henderson, C R (1973). “Sire evaluation and genetic trends”. Journal of Animal Science (American Society of Animal Science) 1973: 10-41. http://www.journalofanimalscience.org/content/1973/Symposium/10.full.pdf 2014年8月17日閲覧。. 
  7. ^ Lindstrom, ML; Bates, DM (1988). “Newton-Raphson and EM algorithms for linear mixed-effects models for repeated-measures data”. JASA 83 (404): 1014–1021. doi:10.1080/01621459.1988.10478693. 
  8. ^ Laird, Nan M.; Ware, James H. (1982). “Random-Effects Models for Longitudinal Data”. Biometrics (International Biometric Society) 38 (4): 963–974. doi:10.2307/2529876. JSTOR 2529876. PMID 7168798. 
  9. ^ Garrett M. Fitzmaurice, Nan M. Laird, and James H. Ware, 2004. Applied Longitudinal Analysis. John Wiley & Sons, Inc., 326-328.

参考文献

  • Milliken, G. A., & Johnson, D. E. (1992). Analysis of messy data: Vol. I. Designed experiments. New York: Chapman & Hall.
  • West, B. T., Welch, K. B., & Galecki, A. T. (2007). Linear mixed models: A practical guide to using statistical software. New York: Chapman & Hall/CRC.

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ