有意

統計学的有意（とうけいがくてきゆうい、英: statistical significance）は、確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」^[1]ことを指す。科学分野での用語として、有意である（significant）とは「注目に値するほど大きい、ないしは重要である」という意味も持つ^[2]。

P値

帰無仮説の下で実際にデータから計算された統計量よりも極端な（仮説に反する）統計量が観測される確率を、P値という。P値の利用に伴う諸問題を考慮した社会心理学系のジャーナル、Basic and Applied Social Psychology（英語版）（BASP）は、帰無仮説有意性検定およびそれに類する統計学的処理を禁止すると発表した^[3]。

有意水準

有意水準α (0<α<1) は、どの程度の正確さをもって帰無仮説 $H_{0}$ を棄却するかを表す定数である。有意水準αの仮説検定は、 $p<\alpha$ の時に $H_{0}$ を棄却する。このとき、「統計量はα水準で有意である」という。有意水準αは仮説 $H_{0}$ が正しいにもかかわらず仮説検定で棄却してしまう確率（第一種過誤を犯す確率）に等しい。日本工業規格では、「第一種の誤りの確率の上限値」と定義している^[4] 。

有意水準 $\alpha$ の値としては、0.05 (5%) を用いるのが一般的であるが、そのとり方は学問・調査・研究対象によっても違いがあり、社会科学などでは0.1（10%）を用いる場合もあり、厳密さが求められる自然科学では0.01（1%）などを用いる場合もある。また、データ表示に当たっては有意性に段階をつけて複数の有意水準を同時に用いることもあり、たとえば0.05水準で有意ならば * 、0.01水準と0.001水準に対してはそれぞれ ** 、 *** と表示する。

有意であるからといって「偶然ではない」と断定できるわけではなく、「偶然とは考えにくい」という意味に過ぎない。したがって、たとえば有意水準5%で有意という場合には、「実際には偶然に過ぎないのに、誤って『意味がある』と判断している」可能性が多くて5%ある。

逆に、 $p>\alpha$ の場合は、「有意差があるとはいえない」とまでしかならない^[5]。

有意水準に対する批判

2010年代初頭に入ると科学は「再現性の危機」に苦しんでいて、研究者も助成機関も出版社も、学術文献は信頼できない結果にまみれているのではないかと不安を募らせている。2017年に72人の著名な研究者が、新たな発見をしたと主張する際の証拠の統計的基準の低さが再現性の危機の一因になっているとする論文を発表した。新発見の統計的有意性を評価するために、科学者が好んで用いる有意水準 $\alpha$ の値は0.05から0.005に引き下げるべきであると、統計学の大家たちは主張する。

その一方、イリノイ工科大学の計算機科学者Shlomo Argamonは「実験する方法が多数ある限り、どんなに小さい有意水準 $\alpha$ の値を用いてもその中に一つの実験方法が偶然に有意になる可能性が極めて高い」と新しい方法論的な基準を求める。実際小さい有意水準 $\alpha$ の値を用いたらお蔵入り問題がより著しくなり、多数の論文が出版できなくなる^[6]。

2016年にはこの問題について、アメリカ統計協会が声明を発表^[7]し、「どんなに小さい効果でも、サンプルサイズが大きかったり測定精度が十分高ければ小さいP値となりうる」「P値は仮説やその計算の背後にある仮定に基づいたデータについての記述であり、仮説や背後にある仮定自身についての記述ではない」など、P値についての基本的な問題点を整理し、「P値は、それだけでは統計モデルや仮説に関するエビデンスの、よい指標とはならない」ことを強調している。

2019年には科学者800人超が、『ネイチャー』に署名し、P値が有意水準より大きい場合、「有意差があるとはいえない」とまでしかならないが、誤って「有意差がない＝薬などの効果がない」と推論する文献は791文献中の51%に見当たったということで、「統計的有意性」を使うのをやめて信頼区間を互換区間という言葉に言い換えて使用すべきだとされた^[5]。

多重比較

「多重比較問題」も参照

同種の検定を繰り返して全体での有意性の有無を判断する場合（多重比較）、1回の検定に対する有意水準をαとすると、k回の同様の試行に対して一度でも有意な結果を得る確率 $\alpha _{k}$ はk回の試行の独立性に依存する。たとえば、k回の試行が独立であるときは、 $\alpha _{k}=1-(1-\alpha )^{k}$ となる。しかしながら、 $\alpha _{k}$ の上限はkαであることから、1回の検定に対する有意水準をα/kと定めれば、k回の同様の試行に対して有意水準が高々αの検定を行うことができる。これをボンフェローニ補正という。ただし、この方法ではkの値が大きくなるにつれて有意水準が下がり、実用性に乏しくなる。そのため、より検定力の高い手法が提案されている。古くはLSD法が、ボンフェローニ法と共に計算が容易であるため好まれた。今日では、テューキーの範囲検定やRyan法が最も一般的である。また、シェッフェの方法やWSD法も見かけるようになっている。これらは、分散分析で3水準以上の要因の主効果が有意であった場合の下位検定にも用いられる。

有意差

帰無仮説を「2つの母数に差がない」という形にした場合には、帰無仮説が棄却されることで「2つの母数の間には有意差がある」という結論が導かれる。

信頼区間と仮説検定

統計量Xが、ある母数θの推定量である場合を考える。このとき、有意水準αで帰無仮説が棄却されないようなXのとりうる範囲は、信頼水準 $1-\alpha$ に対するθの信頼区間と等しい。

たとえば、標本平均Xを母平均θの推定量とみなすと、帰無仮説： $\theta =\theta _{0}$ が有意水準5%で棄却されないXの範囲は、 $\theta _{0}$ の95%信頼区間と一致する。

脚注

[脚注の使い方]

^ "有意". デジタル大辞泉. コトバンクより2022年2月10日閲覧。
^ “significant - Quick search results | Oxford English Dictionary”. www.oed.com. 2023年9月4日閲覧。
^ 2015 T&F社のBASP誌がP値の使用禁止を発表 https://www.editage.jp/insights/a-taylor-francis-journal-announces-ban-on-p-values
^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 2.53 有意水準, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
^ ^a ^b 井上輝一 (2019年3月26日). “「“統計的に有意差なし”もうやめませんか」　Natureに科学者800人超が署名して投稿”. ITmedia. 2019年5月21日閲覧。
^ 2017 統計学の大物学者がP値の刷新を提案, Nature ダイジェスト
^ Wasserstein RL, Lazar NA著、佐藤俊哉訳 (2017年4月23日). “「統計的有意性とP値に関するASA声明（原題：The ASA’s statement on p-values: Context, process, and purpose. 2016; 70: 129-133. ）”. The American Statistician. 2021年4月16日閲覧。

参考文献

西岡康夫『数学チュートリアルやさしく語る確率統計』オーム社、2013年。ISBN 9784274214073。
伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204。
日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html

関連項目

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像