比例ハザードモデル

比例ハザードモデル（ひれいハザードモデル、英: proportional hazards models）は、統計学における生存モデルの一種である。生存モデルは、ある事象が発生する前の経過時間を、その時間量に関連する可能性がある1つまたは複数の共変量（英語版）に関連づけるものである。比例ハザードモデルでは、共変量の単位増加による固有の効果は、ハザード率に対して乗法的に作用する。たとえば、ある薬を服用すると、脳卒中発症のハザード率が半分になったり、製造部品の構成材料を変更すると、故障のハザード率が2倍になったりする。加速故障時間モデル（英語版）などの他の種類の生存モデルは、比例ハザードを示さない。加速故障時間モデルは、ある事象の生物学的または機械的な生活史が加速（または減速）される状況を記述する。

背景

生存モデルは、2つの部分から構成されていると見なすことができる。基本となるベースライン・ハザード関数（ $\lambda _{0}(t)$ と表記されることが多い）は、ベースラインレベルの共変量で、時間単位あたりのイベントリスクが時間とともにどのように変化するかを記述するものである。一方、効果パラメータは、説明共変量に応じてそのハザードがどのように変化するかを記述するものである。典型的な医療事例では、交絡の変動を抑制し（または）制御するために、治療割り当てや、試験開始時の年齢、性別、および試験開始時の他の疾患の有無など、患者特徴の共変量が含まれる。

「比例ハザード条件」（proportional hazards condition）とは^[1]、共変量がハザードに乗法的に関係していることを意味する。定常係数の最も単純なケースでは、たとえば、ある薬剤による治療により、任意の時間 $t$ における被験者のハザードが半減し、一方でベースラインのハザードは変化する可能性がある。ただし、これによって被験者の寿命が2倍になるわけではないことに注意すること。寿命に対する共変量の正確な効果は、 $\lambda _{0}(t)$ の種類に依存する。共変量はバイナリ予測変数に限定されるものではなく、連続的な共変量 $x$ の場合、一般的にハザードは指数関数的に応答すると仮定される。 $x$ の単位増加ごとにハザードは比例的にスケーリングされる。

Coxモデル

以下に示すCoxの部分尤度は、ベースライン・ハザード関数のBreslow推定量を用い、それを完全な尤度に当てはめて、その結果が2つの要因の積であることを観測することで得られる。第1の因子は、ベースライン・ハザードが「相殺」された後述の部分的な尤度である。第2の因子は、回帰係数を含まず、打ち切りパターンを介してのみデータに依存する。このように、比例ハザードモデルによって推定された共変量の効果は、ハザード比として知ることができる。

デイヴィッド・コックス卿（英語版）は、比例ハザードの仮定が成り立つ（あるいは成り立つと仮定される）場合、ハザード関数を考慮せずに効果パラメータを推定することが可能であると述べた。このような生存データへのアプローチは、Cox比例ハザードモデルの適用と呼ばれ^[2]、Coxモデルまたは比例ハザードモデルと略されることもある。ただし、Coxは、比例ハザード仮定（proportional hazards assumption）の生物学的解釈が非常に難しい場合があることも言及した^[3]^[4]。

被験者 i の共変量の実現値を X_i = (X_i1, … , X_ip) とする。Cox比例ハザードモデルのハザード関数は、

\lambda (t|X_{i})=\lambda _{0}(t)\exp(\beta _{1}X_{i1}+\cdots +\beta _{p}X_{ip})=\lambda _{0}(t)\exp(X_{i}\cdot \beta )

の形式である。この式は、共変量ベクトル（説明変数）X_i を持つ被験者 i の時刻 t におけるハザード関数を示している。

時刻 Y_i において、観測されるべき事象が被験者 i に発生する可能性は、次のように書くことができる。

L_{i}(\beta )={\frac {\lambda (Y_{i}\mid X_{i})}{\sum _{j:Y_{j}\geq Y_{i}}\lambda (Y_{i}\mid X_{j})}}={\frac {\lambda _{0}(Y_{i})\theta _{i}}{\sum _{j:Y_{j}\geq Y_{i}}\lambda _{0}(Y_{i})\theta _{j}}}={\frac {\theta _{i}}{\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}}}

ここに、θ_j = exp(X_j ⋅ β) であり、その合計は時刻 Y_i 以前に事象が発生していない被験者 j の集合（被験者 i 自身を含む）に対するものである。明らかに、0 < L_i(β) ≤ 1 である。これは部分尤度（偏尤度とも）（英語版）であり、時間経過によるハザードの変化をモデル化することなく、共変量の影響を推定することができる。

被験者を統計的に互いに独立であるかのように扱うと、実現したすべての事象の同時確率は^[5]、事象の発生を C_i = 1 で示すと、次のような部分尤度となる。

L(\beta )=\prod _{i:C_{i}=1}L_{i}(\beta )

これに対応する対数部分尤度は、

\ell (\beta )=\sum _{i:C_{i}=1}\left(X_{i}\cdot \beta -\log \sum _{j:Y_{j}\geq Y_{i}}\theta _{j}\right)

である。

この関数は β 上で最大化され、モデルパラメータの最大部分尤度推定量を生成することができる。

部分スコア関数（英語版）は、

\ell ^{\prime }(\beta )=\sum _{i:C_{i}=1}\left(X_{i}-{\frac {\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}X_{j}}{\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}}}\right)

であり、部分対数尤度のヘッセ行列は、

\ell ^{\prime \prime }(\beta )=-\sum _{i:C_{i}=1}\left({\frac {\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}X_{j}X_{j}^{\prime }}{\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}}}-{\frac {\left[\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}X_{j}\right]\left[\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}X_{j}^{\prime }\right]}{\left[\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}\right]^{2}}}\right)

である。

このスコア関数とヘッセ行列を用いると、ニュートン＝ラフソンアルゴリズムを使用して部分尤度を最大化することができる。β の推定量で評価されるヘッセ行列の逆行列は、推定量の近似分散共分散行列として使用でき、回帰係数の近似標準誤差を生成するために使用できる。

同値の時間

時間データに同値がある場合に対処するために、いくつかの方法が提案されている。Breslow法（Breslow's method）は、同値が存在する場合でも、上述の手順を変更せずに使用するアプローチである。より良い結果が得られると考えられる別のアプローチとして、Efron法（Efron's method）がある^[6]。t_j を一意の時間とし、 H_j を Y_i = t_j かつ C_i = 1となるインデックス i の集合とし、m_j = |H_j| とする。Efronのアプローチは、次の部分尤度を最大化する。

L(\beta )=\prod _{j}{\frac {\prod _{i\in H_{j}}\theta _{i}}{\prod _{\ell =0}^{m-1}\left[\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}\right]}}.

対応する対数部分尤度は、

\ell (\beta )=\sum _{j}\left(\sum _{i\in H_{j}}X_{i}\cdot \beta -\sum _{\ell =0}^{m-1}\log \left(\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}\right)\right),

スコア関数は、

\ell ^{\prime }(\beta )=\sum _{j}\left(\sum _{i\in H_{j}}X_{i}-\sum _{\ell =0}^{m-1}{\frac {\sum _{i:Y_{i}\geq t_{j}}\theta _{i}X_{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}X_{i}}{\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}}}\right),

そしてヘッセ行列は、

\ell ^{\prime \prime }(\beta )=-\sum _{j}\sum _{\ell =0}^{m-1}\left({\frac {\sum _{i:Y_{i}\geq t_{j}}\theta _{i}X_{i}X_{i}^{\prime }-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}X_{i}X_{i}^{\prime }}{\phi _{j,\ell ,m}}}-{\frac {Z_{j,\ell ,m}Z_{j,\ell ,m}^{\prime }}{\phi _{j,\ell ,m}^{2}}}\right),

であり、ここに

\phi _{j,\ell ,m}=\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}

Z_{j,\ell ,m}=\sum _{i:Y_{i}\geq t_{j}}\theta _{i}X_{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}X_{i}.

となる。なお、H_j が空の場合（時刻 t_j のすべての観測値が打ち切られる）、これらの式の被加数はゼロとして扱われることに注意すること。

時変予測変数および係数

時間依存変数、時間依存層、および被験者ごとの複数の事象への拡張は、AndersenとGillの計数過程の定式化によって組み入れることができる^[7]。時変予測変数^{[訳語疑問点]}を用いたハザードモデルの使用例として、失業保険の失業期間に対する効果の推定がある^[8]^[9]。

時変共変量（英語版）（すなわち予測変数）を許容することに加えて、Coxモデルは時変係数に一般化することができる。つまり、治療の比例効果は時間とともに変化する可能性がある。たとえば、ある薬剤は罹患後1ヶ月以内に投与すると非常に効果的だが、時間が経つにつれて効果が低下する場合がある。次に、係数が時間とともに変化しない（定常性）という仮説を検証することができる。詳細とソフトウェア（Rパッケージ）はMartinussen and Scheike (2006)から入手できる^[10]^[11]。信頼性計算では、時変共変量を使用したCoxモデルの応用が考えられている^[12]。

これに関連して、共変量の効果を加法ハザードで指定することが理論的に可能であることも言及されている^[4]。つまり、

\lambda (t|X_{i})=\lambda _{0}(t)+\beta _{1}X_{i1}+\cdots +\beta _{p}X_{ip}=\lambda _{0}(t)+X_{i}\cdot \beta

を指定することである。

（対数）尤度最大化を目的とした状況でこのような加法ハザードモデル（additive hazards models）を使用する場合は、 $\lambda (t\mid X_{i})$ を非負値に制限するように注意しなければならない。おそらくこの複雑さのために、このようなモデルはほとんど見られない。目的が最小二乗であれば、非負の制限は厳密には必要ない。

ベースライン・ハザード関数の指定

ベースライン・ハザードが特定の形に従うと仮定する理由がある場合、Coxモデルを特殊化することができる。この場合、ベースライン・ハザード $\lambda _{0}(t)$ は与えられた関数で置き換えられる。たとえば、ハザード関数をワイブル・ハザード関数と仮定すると、「ワイブル比例ハザードモデル」（Weibull proportional hazards model）となる。

ちなみに、ワイブル・ベースライン・ハザードを使用することは、モデルが比例ハザードモデルと加速故障時間モデル（英語版）の両方を満足する唯一の状況である。

一般用語のパラメトリック比例ハザードモデル（parametric proportional hazards models）は、ハザード関数が指定されている比例ハザードモデルを説明するために使用できる。対照的に、Cox比例ハザードモデル（Cox proportional hazards model）はセミパラメトリック・モデル（英語版）と呼ばれることもある。

一部の著者は、基礎となるハザード関数を指定している場合でも、（パラメトリック比例ハザードモデルでなく）Cox比例ハザードモデルという用語を使用して^[13]、この分野全体がデイヴィッド・コックスに負っている恩義を認めている。

「Cox回帰モデル」（Cox regression model）（比例ハザードを除く）という用語は、時間依存因子を含むようにCoxモデルを拡張したものを表すために使われることがある。しかし、Cox比例ハザードモデルはそれ自体が回帰モデルとして記述できるため、この使い方は潜在的に曖昧である。

ポアソンモデルとの関係

比例ハザードモデルとポアソン回帰（英語版）モデルの間には関係があり、ポアソン回帰のソフトウェアで近似比例ハザードモデルを適合させるために使用されることがある。これを行う一般的な理由は、計算がはるかに速くなるということである。このことは、コンピュータの速度が遅い時代にはより重要であったが、特に大きなデータセットや複雑な問題には依然として有益である。Laird and Olivier（1981）は、数学的な詳細を説明した^[14]。彼らは『我々は（ポアソンモデルが）真であると仮定しているのではなく、単に尤度を導出するための装置として使用するだけである』と述べている。McCullagh and Nelderの一般化線形モデルに関する本には^[15]、比例ハザードモデルから一般化線形モデルへの変換に関する章がある。

高次元設定の場合

高次元では、共変量の数 p がサンプルサイズ n に比べて大きい場合、Lasso法は古典的なモデル選択戦略の1つである。Tibshirani（1997）は、比例ハザード回帰パラメータのLasso法を提案した^[16]。回帰パラメータ β のLasso推定量は、L1ノルム制約の下でのCox部分対数尤度の逆数の最小化として定義される。

\ell (\beta )=\sum _{j}\left(\sum _{i\in H_{j}}X_{i}\cdot \beta -\sum _{\ell =0}^{m-1}\log \left(\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}\right)\right)+\lambda \|\beta \|_{1},

最近、このトピックについて理論的な進歩があった^[17]^[18]^[19]^[20]。

参照項目

ポータル数学

加速故障時間モデル（英語版）
10％ルール（英語版）
ワイブル分布
尤度方程式

脚注

^ Breslow, N. E. (1975). “Analysis of Survival Data under the Proportional Hazards Model”. International Statistical Review / Revue Internationale de Statistique 43 (1): 45–57. doi:10.2307/1402659. JSTOR 1402659.
^ Cox, David R (1972). “Regression Models and Life-Tables”. Journal of the Royal Statistical Society, Series B 34 (2): 187–220. JSTOR 2985181. MR0341758.
^ Reid, N. (1994). “A Conversation with Sir David Cox”. Statistical Science 9 (3): 439–455. doi:10.1214/ss/1177010394.
^ ^a ^b Cox, D. R. (1997). Some remarks on the analysis of survival data. the First Seattle Symposium of Biostatistics: Survival Analysis.
^ "Each failure contributes to the likelihood function", Cox (1972), page 191.
^ Efron, Bradley (1974). “The Efficiency of Cox's Likelihood Function for Censored Data”. Journal of the American Statistical Association 72 (359): 557–565. doi:10.1080/01621459.1977.10480613. JSTOR 2286217.
^ Andersen, P.; Gill, R. (1982). “Cox's regression model for counting processes, a large sample study.”. Annals of Statistics 10 (4): 1100–1120. doi:10.1214/aos/1176345976. JSTOR 2240714.
^ Meyer, B. D. (1990). “Unemployment Insurance and Unemployment Spells”. Econometrica 58 (4): 757–782. doi:10.2307/2938349. JSTOR 2938349. http://www.nber.org/papers/w2546.pdf.
^ Bover, O.; Arellano, M.; Bentolila, S. (2002). “Unemployment Duration, Benefit Duration, and the Business Cycle”. The Economic Journal 112 (479): 223–265. doi:10.1111/1468-0297.00034. http://www.bde.es/f/webbde/Secciones/Publicaciones/PublicacionesSeriadas/EstudiosEconomicos/azul57e.pdf.
^ Martinussen; Scheike (2006). Dynamic Regression Models for Survival Data. Springer. doi:10.1007/0-387-33960-4. ISBN 978-0-387-20274-7
^ “timereg: Flexible Regression Models for Survival Data”. CRAN. 2021年10月17日閲覧。
^ Wu, S.; Scarf, P. (2015). “Decline and repair, and covariate effects”. European Journal of Operational Research 244 (1): 219–226. doi:10.1016/j.ejor.2015.01.041. http://usir.salford.ac.uk/33494/1/Decline_and_repair_Author_accepted_version.pdf.
^ Bender, R.; Augustin, T.; Blettner, M. (2006). “Generating survival times to simulate Cox proportional hazards models”. Statistics in Medicine 24 (11): 1713–1723. doi:10.1002/sim.2369. PMID 16680804.
^ Nan Laird and Donald Olivier (1981). “Covariance Analysis of Censored Survival Data Using Log-Linear Analysis Techniques”. Journal of the American Statistical Association 76 (374): 231–240. doi:10.2307/2287816. JSTOR 2287816.
^ P. McCullagh and J. A. Nelder (2000). “Chapter 13: Models for Survival Data”. Generalized Linear Models (Second ed.). Boca Raton, Florida: Chapman & Hall/CRC. ISBN 978-0-412-31760-6 (Second edition 1989; first CRC reprint 1999.)
^ Tibshirani, R. (1997). “The Lasso method for variable selection in the Cox model”. Statistics in Medicine 16 (4): 385–395. doi:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3.
^ Bradić, J.; Fan, J.; Jiang, J. (2011). “Regularization for Cox's proportional hazards model with NP-dimensionality”. Annals of Statistics 39 (6): 3092–3120. arXiv:1010.5233. doi:10.1214/11-AOS911. PMC 3468162. PMID 23066171. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3468162/.
^ Bradić, J.; Song, R. (2015). “Structured Estimation in Nonparametric Cox Model”. Electronic Journal of Statistics 9 (1): 492–534. arXiv:1207.4510. doi:10.1214/15-EJS1004.
^ Kong, S.; Nan, B. (2014). “Non-asymptotic oracle inequalities for the high-dimensional Cox regression via Lasso”. Statistica Sinica 24 (1): 25–42. arXiv:1204.1992. doi:10.5705/ss.2012.240. PMC 3916829. PMID 24516328. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3916829/.
^ Huang, J.; Sun, T.; Ying, Z.; Yu, Y.; Zhang, C. H. (2011). “Oracle inequalities for the lasso in the Cox model”. The Annals of Statistics 41 (3): 1142–1165. arXiv:1306.4847. doi:10.1214/13-AOS1098. PMC 3786146. PMID 24086091. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3786146/.

参考文献

Bagdonavicius, V.; Levuliene, R.; Nikulin, M. (2010). “Goodness-of-fit Criteria for the Cox model from Left Truncated and Right Censored Data”. Journal of Mathematical Sciences 167 (4): 436–443. doi:10.1007/s10958-010-9929-6.
Cox, D. R.; Oakes, D. (1984). Analysis of Survival Data. New York: Chapman & Hall. ISBN 978-0412244902
Collett, D. (2003). Modelling Survival Data in Medical Research (2nd ed.). Boca Raton: CRC. ISBN 978-1584883258
Gouriéroux, Christian (2000). “Duration Models”. Econometrics of Qualitative Dependent Variables. New York: Cambridge University Press. pp. 284–362. ISBN 978-0-521-58985-7. https://books.google.com/books?id=dE2prs_U0QMC&pg=PA284
Singer, Judith D.; Willett, John B. (2003). “Fitting Cox Regression Models”. Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence. New York: Oxford University Press. pp. 503–542. ISBN 978-0-19-515296-8. https://books.google.com/books?id=eDWG3728OxcC&pg=PA503
Therneau, T. M.; Grambsch, P. M. (2000). Modeling Survival Data: Extending the Cox Model. New York: Springer. ISBN 978-0387987842

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像