二乗平均平方根誤差

バイオインフォマティクスの概念については「原子位置の二乗平均平方根偏差」をご覧ください。

二乗平均平方根誤差（にじょうへいきんへいほうこんごさ）は、モデルまたは推定量により予測された値（標本値または母集団値）と観測された値の間の差として頻繁に使用される尺度である。RMSE (root-mean-square errorの略)またはRMSD (root-mean-square deviationの略) などとも書かれる。RMSDは、予測値と観測値の差の2次の標本モーメントの平方根、すなわちこれらの差の二乗平均平方根を表している。これらの偏差は、推定に使用されたデータ標本で計算された場合は残差と呼ばれ標本でなく計算された場合は誤差（または予測誤差）と呼ばれる。RMSDは、様々なデータ点の予測における誤差の大きさを予測力の1つの尺度に集約する役割をする。RMSDは、スケールに依存するため、データセット間ではなく特定のデータセットに対する異なるモデルの予測誤差を比較するための正確度の尺度である^[1]。

RMSDは常に非負の値をとり、（ほとんど起こらないが）0はデータに完全にフィットしていることを示す。一般的にはRMSDが小さい方が良いとされている。しかし、この尺度は使用する数値の尺度に依存するため、異なる種類のデータ間での比較は意味を持たない。

RMSDは、平均二乗誤差の平方根である。各誤差がRMSDに与える影響は二乗誤差の大きさに比例するため、誤差が大きいほどRMSDへの影響も比例して大きくなる。そのため、誤差が大きいほどRMSDへの影響が大きく、結果として外れ値の影響を受けやすくなる^[2]^[3]。

式

推定パラメータ $\theta$ に対する推定量 ${\hat {\theta }}$ に対するRMSDは、平均二乗誤差 (MSE) の平方根として定義される。

\operatorname {RMSD} ({\hat {\theta }})={\sqrt {\operatorname {MSE} ({\hat {\theta }})}}={\sqrt {\operatorname {E} (({\hat {\theta }}-\theta )^{2})}}.

不偏推定量の場合、RMSDは分散の平方根であり標準偏差と呼ばれる。

T回観測された変数を持つ回帰の従属変数 $y_{t},$ の時間 t に対する予測値 ${\hat {y}}_{t}$ のRMSDは、T個の異なる予測に対して、偏差の二乗の平均の平方根として計算される。

\operatorname {RMSD} ={\sqrt {\frac {\sum _{t=1}^{T}({\hat {y}}_{t}-y_{t})^{2}}{T}}}.

（横断データ（英語版）の回帰では、添え字の t を i に、T を n を置き換える）

分野によっては、RMSDは、変化する可能性がありどちらも「標準」として受け入れられない2つのものの間の差を比較するために使用される。例えば、2つの時系列 $x_{1,t}$ と $x_{2,t}$ の平均的な差を測定する場合、式は次のようになる。

\operatorname {RMSD} ={\sqrt {\frac {\sum _{t=1}^{T}(x_{1,t}-x_{2,t})^{2}}{T}}}.

正規化

RMSDを正規化することで、スケールの異なるデータセットやモデル間での比較が容易になる。正規化の方法は文献により統一されていないが、一般的には測定データの平均値または範囲（最大値から最小を引いたもの）が選択される^[4]。

\mathrm {NRMSD} ={\frac {\mathrm {RMSD} }{y_{\max }-y_{\min }}}

または

\mathrm {NRMSD} ={\frac {\mathrm {RMSD} }{\bar {y}}}

この値は一般的にNRMSD (normalized root-mean-square deviation) または NRMSE (normalized root-mean-square error) と呼ばれ、多くの場合パーセンテージで表され、値が低いほど残差分散が少ないことを示す。多くの場合、少ない標本では標本範囲が標本の大きさに影響され、比較の妨げになると思われる。

RMSDをより有用な比較尺度とするための別の方法として、RMSDを四分位範囲（英語版） (IQR)で分けることが考えられる。RMSDをIQRで分けると、正規化された値は対照となる変数の極端な値に対する感度が低くなる。

\mathrm {RMSDIQR} ={\frac {\mathrm {RMSD} }{IQR}}

（ここで

IQR=Q_{3}-Q_{1}

）

$Q_{1}={\text{CDF}}^{-1}(0.25)$ であり $Q_{3}={\text{CDF}}^{-1}(0.75)$ である。CDF⁻¹は分位点関数（英語版）である。

測定値の平均値で正規化する場合、曖昧さを避けるためにRMSDの変動係数(coefficient of variation of the RMSD, CV(RMSD)) という用語を使用することがある^[5]。これは、標準偏差の代わりにRMSDを用いた変動係数に類似する。

\mathrm {CV(RMSD)} ={\frac {\mathrm {RMSD} }{\bar {y}}}.

平均絶対誤差

研究者の中にはRMSDの代わりに平均絶対誤差（英語版） (MAE)を使用することを推奨している。MAEはRMSDよりも説明力があるという利点がある。MAEは、誤差の絶対値の平均値である。WAEは、二乗誤差の平均値の平方根よりも基本的に理解しやすい。さらに、各誤差は誤差の絶対値に比例してMAEに影響を与えるが、RMSDの場合はそうではない^[2]。

使用例

気象学において、大気の挙動を予測する数学的モデルの効果を確認するために使用される。
バイオインフォマティクスにおいて、原子位置の二乗平均平方根偏差は重ね合わせたタンパク質の原子間の平均距離の尺度である。
構造に基づく医薬品設計では、RMSDはリガンドの結晶コンフォメーションとドッキング予測との間の差を示す尺度である。
経済学において、RMSDは経済モデルが経済指標に適合しているか否かを決定するために使用される。専門家の中には、RMSDは相対絶対誤差よりも信頼性が低いと主張する者もいる^[6]。
実験心理学において、RMSDは行動に関する数学または計算モデルが経験的に観察された行動をどの程度説明できるかを評価するために使用される。
地理情報システムにおいて、RMSDは空間分析やリモートセンシングの精度を評価するための指標の1つである。
水文地質学において、RMSDとNRMSDは、地下水モデルのキャリブレーションを評価するために使用される^[7]。
イメージングサイエンスにおいて、RMSDはピーク信号対雑音比の一部であり、画像を再構成する方法が元の画像に対してどの程度優れているかを評価するために使用される指標である。
計算論的神経科学において、RMSDはシステムが与えられたモデルをどれだけうまく学習できるかを評価するために使用される^[8]。
タンパク質の核磁気共鳴分光法（英語版）において、RMSDは得られた構造の束の質を評価する尺度として使用される。
Netflix Prizeの応募作品は、テストデータセットの非公開の「真値」からのRMSDを使用して審査された。
建物のエネルギー消費量のシミュレーションでは、RMSEとCV(RMSE)は建物の実測値に対してモデルを較正するために使用される^[9]。
X線結晶構造解析において、RMSD（およびRMSZ）は、分子内部の座標が制限付きライブラリ値からどれだけ乖離しているかを測定するために使用される。

出典

^ Hyndman, Rob J.; Koehler, Anne B. (2006). “Another look at measures of forecast accuracy”. International Journal of Forecasting 22 (4): 679–688. doi:10.1016/j.ijforecast.2006.03.001.
^ ^a ^b Pontius, Robert; Thontteh, Olufunmilayo; Chen, Hao (2008). “Components of information for multiple resolution comparison between maps that share a real variable”. Environmental Ecological Statistics 15 (2): 111–142. doi:10.1007/s10651-007-0043-y.
^ Willmott, Cort; Matsuura, Kenji (2006). “On the use of dimensioned measures of error to evaluate the performance of spatial interpolators”. International Journal of Geographical Information Science 20: 89–102. doi:10.1080/13658810500286976.
^ “Coastal Inlets Research Program (CIRP) Wiki - Statistics”. 2015年2月4日閲覧。
^ “FAQ: What is the coefficient of variation?”. 2019年2月19日閲覧。
^ Armstrong, J. Scott; Collopy, Fred (1992). “Error Measures For Generalizing About Forecasting Methods: Empirical Comparisons”. International Journal of Forecasting 8 (1): 69–80. doi:10.1016/0169-2070(92)90008-w. http://faculty.weatherhead.case.edu/Fred-Collopy/researchArticles/ErrorMeasures.pdf.
^ Anderson, M.P.; Woessner, W.W. (1992). Applied Groundwater Modeling: Simulation of Flow and Advective Transport (2nd ed.). Academic Press
^ Ensemble Neural Network Model
^ ANSI/BPI-2400-S-2012: Standard Practice for Standardized Qualification of Whole-House Energy Savings Predictions by Calibration to Energy Use History