決定係数

決定係数けっていけいすう: coefficient of determination、R2)は、統計学において、独立変数(説明変数)が従属変数(目的変数)のどれくらいを説明できるかを表す値である。寄与率と呼ばれることもある。標本値から求めた回帰方程式(モデル)のあてはまりの良さの尺度として利用される。

定義

一般的な定義

決定係数 R 2 {\displaystyle R^{2}} のはっきりと合意された定義は無い。タロル・クヴォルセス[1]によれば、8種類の定義があり注意が必要だとしている[2]。 しかし、以下の式を定義とするのが一般的なようである。標本値(実測値、観測値)を y = { y 1 ,   y 2 ,   ,   y N } {\displaystyle y=\left\{y_{1},\ y_{2},\ \cdots ,\ y_{N}\right\}} 、回帰方程式による推定値を f = { f 1 ,   f 2 ,   ,   f N } {\displaystyle f=\left\{f_{1},\ f_{2},\ \cdots ,\ f_{N}\right\}} とする。

R 2 1 i = 1 N ( y i f i ) 2 j = 1 N ( y j y ¯ ) 2 {\displaystyle R^{2}\equiv 1-{\frac {\displaystyle \sum _{i=1}^{N}\left(y_{i}-f_{i}\right)^{2}}{\displaystyle \sum _{j=1}^{N}\left(y_{j}-{\overline {y}}\right)^{2}}}}

すなわち、残差の二乗和を標本値の平均値 y ¯ {\displaystyle {\overline {y}}} からの偏差の二乗和で割ったものを1から引いた値であり、1に近い程相対的な残差が少ないことを表す。最小二乗法はこの定義を最大にするようなパラメータの選択法である。値域は1以下の実数。よく見かける値は0~1のあたり。

回帰方程式が最小二乗法による単回帰の回帰直線の場合は、決定係数はピアソンの積率相関係数の2乗になり、0以上1以下の実数になる。

なお、一般的な線形回帰の場合、以下の各式が等価であり、それらを定義式とすることもあるようである。

推定値の分散を標本値の分散で割ったもの
R 2 i = 1 N ( f i f ¯ ) 2 j = 1 N ( y j y ¯ ) 2 {\displaystyle R^{2}\equiv {\frac {\displaystyle \sum _{i=1}^{N}\left(f_{i}-{\overline {f}}\right)^{2}}{\displaystyle \sum _{j=1}^{N}\left(y_{j}-{\overline {y}}\right)^{2}}}}
標本値と推定値との相関係数の2乗
R 2 { i = 1 N ( f i f ¯ ) ( y i y ¯ ) } 2 { j = 1 N ( f j f ¯ ) 2 } { k = 1 N ( y k y ¯ ) 2 } {\displaystyle R^{2}\equiv {\frac {\left\{\displaystyle \sum _{i=1}^{N}\left(f_{i}-{\overline {f}}\right)\left(y_{i}-{\overline {y}}\right)\right\}^{2}}{\left\{\displaystyle \sum _{j=1}^{N}\left(f_{j}-{\overline {f}}\right)^{2}\right\}\left\{\displaystyle \sum _{k=1}^{N}\left(y_{k}-{\overline {y}}\right)^{2}\right\}}}}

線形回帰以外の場合、原点を通ることを要求した場合、最小二乗法以外で回帰した場合はこれらの式は上の定義と等価になるとは限らないため、注意が必要である。

クヴォルセスによる8つの定義

クヴォルセスによる8つの定義は以下の通りである。

名前 定義
R 1 2 {\displaystyle R_{1}^{2}} 1 i = 1 N ( y i f i ) 2 j = 1 N ( y j y ¯ ) 2 {\displaystyle 1-{\frac {\displaystyle \sum _{i=1}^{N}\left(y_{i}-f_{i}\right)^{2}}{\displaystyle \sum _{j=1}^{N}\left(y_{j}-{\overline {y}}\right)^{2}}}}
R 2 2 {\displaystyle R_{2}^{2}} i = 1 N ( f i y ¯ ) 2 j = 1 N ( y j y ¯ ) 2 {\displaystyle {\frac {\displaystyle \sum _{i=1}^{N}\left(f_{i}-{\overline {y}}\right)^{2}}{\displaystyle \sum _{j=1}^{N}\left(y_{j}-{\overline {y}}\right)^{2}}}}
R 3 2 {\displaystyle R_{3}^{2}} i = 1 N ( f i f ¯ ) 2 j = 1 N ( y j y ¯ ) 2 {\displaystyle {\frac {\displaystyle \sum _{i=1}^{N}\left(f_{i}-{\overline {f}}\right)^{2}}{\displaystyle \sum _{j=1}^{N}\left(y_{j}-{\overline {y}}\right)^{2}}}}
R 4 2 {\displaystyle R_{4}^{2}} 1 i = 1 N ( e i e ¯ ) 2 j = 1 N ( y j y ¯ ) ,         e i y i f i {\displaystyle 1-{\frac {\displaystyle \sum _{i=1}^{N}\left(e_{i}-{\overline {e}}\right)^{2}}{\displaystyle \sum _{j=1}^{N}\left(y_{j}-{\overline {y}}\right)}},\ \ \ \ e_{i}\equiv y_{i}-f_{i}}
R 5 2 {\displaystyle R_{5}^{2}} 独立変数従属変数の間の重相関係数の二乗[3]
R 6 2 {\displaystyle R_{6}^{2}} y {\displaystyle y} f {\displaystyle f} の間の相関係数の二乗[4]
R 7 2 {\displaystyle R_{7}^{2}} 1 i = 1 N ( y i f i ) 2 j = 1 N y j 2 {\displaystyle 1-{\frac {\displaystyle \sum _{i=1}^{N}\left(y_{i}-f_{i}\right)^{2}}{\displaystyle \sum _{j=1}^{N}y_{j}^{2}}}}
R 8 2 {\displaystyle R_{8}^{2}} i = 1 N f i 2 j = 1 N y j 2 {\displaystyle {\frac {\displaystyle \sum _{i=1}^{N}f_{i}^{2}}{\displaystyle \sum _{j=1}^{N}y_{j}^{2}}}}

自由度調整済みの決定係数

上の決定係数の定義は説明変数を多くとるほど、良くなる傾向を持ってしまう。そのため、説明変数の数を p {\displaystyle p} 、標本の大きさ(標本数ではない)を N {\displaystyle N} として、以下の自由度調整を行うことがあり、自由度調整済みの決定係数[5]と呼ぶ。

R 2 1 1 N p 1 i = 1 N ( y i f i ) 2 1 N 1 j = 1 N ( y j y ¯ ) 2 {\displaystyle R'^{2}\equiv 1-{\frac {\displaystyle {\frac {1}{N-p-1}}\sum _{i=1}^{N}\left(y_{i}-f_{i}\right)^{2}}{\displaystyle {\frac {1}{N-1}}\sum _{j=1}^{N}\left(y_{j}-{\overline {y}}\right)^{2}}}}

なお、「説明変数の数」としているが、線形回帰でない場合、たとえば、同じ説明変数に対し2乗の項や3乗の項も利用する場合は、その分の調整も必要になる。定数項をのぞいたパラメータの数といっても良い。


関連項目

脚注

  1. ^ : Tarald O. Kvålseth
  2. ^ Tarald O. Kvalseth: "Cautionary Note about R2", The American Statistician Vol. 39, No. 4, Part 1 (Nov., 1985), pp. 279-285 (プレビュー)
  3. ^ : squared multiple correlation coefficient between the regressand and the regressors
  4. ^ : squared correlation coefficient between y {\displaystyle y} and f {\displaystyle f}
  5. ^ : adjusted R2
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
  • 表示
  • 編集
典拠管理データベース: 国立図書館 ウィキデータを編集
  • ドイツ