カイ二乗検定

カイ二乗検定(カイにじょうけんてい、カイじじょうけんてい、: Chi-squared test)、または χ 2 {\displaystyle \chi ^{2}} 検定とは、帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計検定法の総称である。次のようなものを含む。

これらはいずれも

χ 2 = ( o b s e r v e d e x p e c t e d ) 2 e x p e c t e d , {\displaystyle \chi ^{2}=\sum {\frac {(\mathrm {observed} -\mathrm {expected} )^{2}}{\mathrm {expected} }},}

(ここで"expected" という語は期待値そのものではなく観測値から求められる期待値の推定量あるいは理論値を指すことが多い)

という形の検定統計量「カイ二乗(χ2)」を含む。

日本工業規格ではカイ二乗検定を「検定統計量が、帰無仮説の下でχ2分布に従うことを仮定して行う統計的検定」と定義している[1]

ピアソンのカイ二乗検定

ピアソンのカイ二乗検定(Pearson's chi-square test)は、カイ二乗検定のうち最も基本的かつ広く用いられる方法であって、「観察された事象の相対的頻度がある頻度分布に従う」という帰無仮説を検定するものである[2]。この頻度分布は特定のものに限らない。すなわちこの方法はノンパラメトリック検定である。

標本空間が有限個の互いに排反な事象の和であるとする(例えば「さいころの目」、「ある人が男か女か」など)。カイ二乗検定統計量とは、各事象に関する頻度の観測値と理論値との差の二乗を理論値で割った商の総和

χ 2 = ( O E ) 2 E {\displaystyle \chi ^{2}=\sum {(O-E)^{2} \over E}}

である。ただしここでO = 頻度の観測値,E = 帰無仮説の下における頻度の期待値(理論値)である。

ピアソンのカイ二乗検定は2つのタイプの比較、適合度検定及び独立性検定に用いられる:

適合度検定

観測された度数分布が理論分布と同じかどうかを検定する。例えば簡単な例として、標本として100人の人がいる場合に、「男と女が同数だけいる集団から、ランダムに抽出された100人である」という仮説を検定するには、男女の人数の観測度数と期待度数とを比較すればよい。観測値が男45人、女55人ならば、

i 属性 Si 観測度数 νi 期待確率 pi 期待度数 npi inpi)2/npi
1 男性 45 1/2 50 25/50
2 女性 55 1/2 50 25/50
n = 100 1 100 χ2 = 1
χ 2 = i ( ν i n p i ) 2 n p i = ( 45 50 ) 2 50 + ( 55 50 ) 2 50 = 1 {\displaystyle \chi ^{2}=\sum _{i}{\frac {(\nu _{i}-np_{i})^{2}}{np_{i}}}={(45-50)^{2} \over 50}+{(55-50)^{2} \over 50}=1}

この場合の自由度は1である(2つの観測値と理論値の差は、一方を決めると他方も自動的に決まるから)。そこで自由度1のカイ二乗分布を見ると、男女の人数が等しい場合にこのような差(及び女がさらに多くなるような場合)が見出される確率は、おおよそ0.32である。この確率は普通用いる統計学的有意水準( α = 0.05, 0.01など)よりも高いから、「男女の人数が等しい」とする帰無仮説を棄却する理由がない。

またカイ二乗分布で十分近似できるのは、実際的な問題として期待度数が条件 npi ≥ 10 をすべての属性に対して満たすときとされている[3]

独立性検定

2つの変数に対する2つの観察(2x2分割表で表される)が互いに独立かどうかを検定する。例えば、「別の地域の人々について、選挙である候補を支持する頻度が違う」かどうかを検定する方法である。

カイ二乗の計算値は、確率分布が二項分布あるいは正規分布に従う集団に関しては正確にカイ二乗分布に従う。

期待値が二項分布:

E = d Bin ( n , p ) {\displaystyle E=^{d}{\mbox{Bin}}(n,p)}

(ただしここで、p = 帰無仮説の下での確率,n = 標本の観測値) に従う場合、カイ二乗は自由度1のカイ二乗分布に従う。なおこの二項分布は標本数が大きい場合には次のような正規分布で近似できる:

Bin ( n , p ) d N ( n p , n p ( 1 p ) ) {\displaystyle {\mbox{Bin}}(n,p)\approx ^{d}{\mbox{N}}(np,np(1-p))}

標準正規分布に従う k {\displaystyle k} 個の変数 Z {\displaystyle Z} から、各二乗の合計を求めると、自由度 k {\displaystyle k} のカイ二乗分布:

i = 1 k Z i 2 = d χ k 2 {\displaystyle \sum _{i=1}^{k}Z_{i}^{2}=^{d}\chi _{k}^{2}}

に従う。

しかし一般の頻度分布でもカイ二乗は「近似的には」カイ二乗分布に従うので、カイ二乗検定が適用可能である。期待値Eが小さい(標本数が小さい、または観測数が少ない)場合は、二項分布を正規分布ではうまく近似できないため、この場合には尤度比検定の1つであるG検定を用いるのがより適切である。全標本数が小さい場合は、二項検定、さらに2x2分割表で表される場合にはフィッシャーの正確確率検定を用いる必要がある。

脚注

  1. ^ JIS Z 8101-1 : 1999 統計用語記号 − 第1部:確率及び一般統計用語 2.60 カイ二乗検定, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
  2. ^ 伏見康治「確率論及統計論」第 VII 章 確率と統計 65節. χ² - 検定法 p.373
  3. ^ Cramér 1999, p. 420.

参考文献

  • Cramér, Harald (1999) [1946]. Mathematical Methods of Statistics. Princeton Landmarks in Mathematics. Princeton University Press. ISBN 0-691-00547-8. MR1816288. Zbl 0985.62001. https://books.google.com/books?id=CRTKKaJO0DYC 
  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。 
  • 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204 
  • 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。 
  • JIS Z 8101-1:1999 統計用語記号 − 第1部:確率及び一般統計用語, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html

関連項目

外部リンク

  • カイ二乗分布表 — 脇本和昌『身近なデータによる統計解析入門』森北出版、1973年。ISBN 4627090307。http://ebsa.ism.ac.jp/ebooks/ebook/1321  付表
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース: 国立図書館 ウィキデータを編集
  • イスラエル
  • アメリカ