イェイツのカイ二乗検定

統計学において, イェイツの修正 (またはイェイツのカイ二乗検定)は分割表において独立性を検定する際にしばしば用いられる。場合によってはイェイツの修正は補正を行いすぎることがあり、現在は用途は限られたものになっている。

推測誤差の補正

カイ二乗分布を用いてカイ二乗検定を解釈する場合、表の中で観察される二項分布型度数の離散型の確率を連続的なカイ二乗分布によって近似することができるかどうかを推測することが求められる。この推測はそこまで正確なものではなく、誤りを起こすこともある。この推測の際の誤りによる影響を減らすため、英国の統計家であるフランク・イェイツは、2 × 2 分割表の各々の観測値とその期待値との間の差から0.5を差し引くことによりカイ二乗検定の式を調整する修正を行うことを提案した^[1]。これは計算の結果得られるカイ二乗値を減らすことになりp値を増加させる。イェイツの修正の効果はデータのサンプルサイズが小さい時に統計学的な重要性を過大に見積もりすぎることを防ぐことである。この式は主に分割表の中の少なくとも一つの期待度数が5より小さい場合に用いられる。不幸なことに、イェイツの修正は修正しすぎる傾向があり、このことは全体として控えめな結果となり帰無仮説を棄却すべき時に棄却し損なってしまうことになりえる(第2種の過誤)。そのため、イェイツの修正はデータ数が非常に少ない時でさえも必要ないのではないかとも提案されている^[2]。例えば次の事例：

\sum _{i=1}^{N}O_{i}=20\,

そして次がカイ二乗検定に対してイェイツの修正を行った場合である:

\chi _{\text{Yates}}^{2}=\sum _{i=1}^{N}{(|O_{i}-E_{i}|-0.5)^{2} \over E_{i}}

ここで:

O_i = 観測度数

E_i= 帰無仮説によって求められる(理論的な)期待度数

E_i= 事象の発生回数

2 × 2 分割表

次の 2 × 2 分割表を例とすると:

	S	F
A	a	b	N_A
B	c	d	N_B
	N_S	N_F	N

このように書ける

\chi _{\text{Yates}}^{2}={\frac {N(|ad-bc|-N/2)^{2}}{N_{S}N_{F}N_{A}N_{B}}}.

場合によってはこちらの書き方の方が良い。

\chi _{\text{Yates}}^{2}={\frac {N(\max(0,|ad-bc|-N/2))^{2}}{N_{S}N_{F}N_{A}N_{B}}}.

脚注

[脚注の使い方]

^ (1934). "Contingency table involving small numbers and the χ² test". Supplement to the Journal of the Royal Statistical Society 1(2): 217–235. JSTOR 2983604
^ Sokal RR, Rohlf F.J. (1981). Biometry: The Principles and Practice of Statistics in Biological Research. Oxford: W.H. Freeman, ISBN 0-7167-1254-7.

関連項目

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像