ロジスティック回帰

統計学
回帰分析
モデル
  • 一般化線形モデル
  • 離散選択(英語版)
  • ロジスティック回帰
  • 多項ロジット(英語版)
  • 混合ロジット(英語版)
  • プロビット(英語版)
  • 多項プロビット(英語版)
  • 順序ロジット(英語版)
  • 順序プロビット(英語版)
  • ポアソン(英語版)
  • 非線形回帰
  • ノンパラメトリック(英語版)
  • セミパラメトリック(英語版)
  • ロバスト(英語版)
  • 分位点(英語版)
  • 等調(英語版)
  • 主成分(英語版)
  • 最小角度(英語版)
  • 局所
  • 折れ線(英語版)
  • 変数誤差(英語版)
推定
  • 普通(英語版)
  • 加重(英語版)
  • 一般化(英語版)
  • 最小絶対偏差(英語版)
  • 繰返し加重(英語版)
  • ベイズ(英語版)
  • ベイズ多変量(英語版)
背景

ロジスティック回帰(ロジスティックかいき、: Logistic regression)は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。1958年デイヴィッド・コックス(英語版)が発表した[1]。確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる[要出典]

モデルは同じく1958年に発表された単純パーセプトロンと等価であるが、scikit-learnなどでは、パラメータを決める最適化問題確率的勾配降下法を使用する物をパーセプトロンと呼び、座標降下法や準ニュートン法などを使用する物をロジスティック回帰と呼んでいる。

概要

ロジスティック回帰モデルは以下のような形式である。x が入力で、pが確率(出力)、αとβがパラメータ。

logit ( p i ) = ln ( p i 1 p i ) = α + β 1 x 1 , i + + β k x k , i , {\displaystyle \operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\alpha +\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i},}
i = 1 , , n , {\displaystyle i=1,\dots ,n,\,\!}

ここで、n 個のユニットと共変動 X があり、以下のような関係にある。

p i = E ( Y | X i ) = Pr ( Y i = 1 ) . {\displaystyle p_{i}=E(Y|X_{i})=\Pr(Y_{i}=1).\,\!}

結果のオッズ(1から確率を引いたもので確率を割った値)の対数は、説明変数 Xi の線形関数としてモデル化される。これを次のようにも表せる。

p i = Pr ( Y i = 1 | X ) = 1 1 + e ( α + β 1 x 1 , i + + β k x k , i ) {\displaystyle p_{i}=\Pr(Y_{i}=1|X)={\frac {1}{1+e^{-(\alpha +\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i})}}}}

単純パーセプトロンの記法を使うと上記の式は以下のようにも表現できる。 ς 1 {\displaystyle \varsigma _{1}} は標準シグモイド関数

p i = ς 1 ( α + β 1 x 1 , i + + β k x k , i ) {\displaystyle p_{i}=\varsigma _{1}(\alpha +\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i})}

パラメータの推定はオッズ比に重大な影響がある。性別のような2値の説明変数の場合、 e β {\displaystyle e^{\beta }} は例えば男性と女性の結果のオッズ比の推定である。推定には最尤法を使うことが多い。

このモデルの拡張として多分割(polytomous)ロジスティック回帰がある。複数カテゴリの従属変数や順序のある従属変数を扱う。ロジスティック回帰による階層分けを多項ロジットモデルと呼ぶ。

応用

社会科学分野での典型的な応用として、企業の過去のデータをもとに信用リスクを推定するという用法がある。

2値ロジスティック回帰はダイレクトマーケティングでよく使われ、ある提案に反応する人々を特定するのに使われる(従属変数は「反応する=1」と「反応しない=0」である)。ダイレクトマーケティングの2値ロジスティック回帰モデルは「リフトチャート」を使って評価される。これは、過去のメールへの反応のデータとモデルによる予測結果を比較する。

ロジスティック回帰モデルは一般化線形モデルの一種である。p(x) が、予測値変数 x について成功の確率を表すとすると、次のように表される。

p ( x ) = e B 0 + B 1 x 1 + e B 0 + B 1 x . {\displaystyle p(x)={\frac {e^{B_{0}+B_{1}x}}{1+e^{B_{0}+B_{1}x}}}.}

代数的操作を施すと次のようになる。

p ( x ) 1 p ( x ) = e B 0 + B 1 x , {\displaystyle {\frac {p(x)}{1-p(x)}}=e^{B_{0}+B_{1}x},}

ここで、 p ( x ) 1 p ( x ) {\displaystyle {\frac {p(x)}{1-p(x)}}} は成功のオッズである。ここで、例えば p(50) が 2/3 となる場合であるとして計算してみると

p ( 50 ) 1 p ( 50 ) = 2 3 1 2 3 = 2. {\displaystyle {\frac {p(50)}{1-p(50)}}={\frac {\frac {2}{3}}{1-{\frac {2}{3}}}}=2.}

したがって、x = 50 のとき、成功の可能性は失敗の2倍(オッズが 2 対 1 )である。

脚注

[脚注の使い方]
  1. ^ Cox, DR (1958). “The regression analysis of binary sequences (with discussion)”. J Roy Stat Soc B 20: 215–242. 

参考文献

  • Agresti, Alan, Categorical Data Analysis, 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
  • Amemiya, T., Advanced Econometrics, Harvard University Press, 1985, ISBN 0-674-00560-0.
  • Balakrishnan, N., Handbook of the Logistic Distribution, Marcel Dekker Inc., 1991, ISBN 0824785878.
  • Green, William H., Econometric Analysis, fifth edition, Prentice Hall, 2003, ISBN 0-13-066189-9.
  • Hosmer, David W. and Stanley Lemeshow, Applied Logistic Regression, 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.

関連項目

外部リンク

  • Web-based logistic regression calculator
  • 「ロジスティック回帰分析」入門 鳥居稔(大阪大学)
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース ウィキデータを編集
全般
  • FAST
国立図書館
  • フランス
  • BnF data
  • ドイツ
  • イスラエル
  • アメリカ