交絡

交絡(こうらく、: confounding)は、統計モデルの中の従属変数独立変数の両方に(肯定的または否定的に)相関する外部変数が存在すること。そのような外部変数を交絡変数(confounding variable)、交絡因子(confounding factor、confounder)、潜伏変数(lurking variable)などと呼ぶ。科学的研究では、第一種過誤(従属変数が独立変数との因果関係にあるという偽陽性の結論)と呼ばれるこれらの要因を避けるように制御する必要がある。2つの観測された変数のそのような関係を擬似相関という。すなわち交絡が存在する場合、観測された現象の真の原因が交絡変数であるにもかかわらず、独立変数を原因と推論してしまうおそれがある。

概要

定義上、交絡変数は想定される原因と結果の両方に関連している。交絡変数は原因と結果の中間に位置することはない。AがCの原因と想定されるとき、交絡変数BはAを原因として起きるのではないし、またBによって常にCが起きるとは限らない。例えば、女性であることは常に喫煙の原因とはならないし、喫煙が常に癌の原因とは限らない。従って、女性であることと癌になることの因果関係を研究する際には、考えられる交絡変数として「喫煙」を考慮すべきである。さらに、2つのリスクグループ(例えば男性と女性)があるとき、交絡変数はそれぞれのグループで常に異なる普及率(例えば喫煙率)となっている。(Hennekens, Buring & Mayrent, 1987)

統計学的研究における因果関係の判定基準は盛んに研究されてきたが、ジューディア・パールは統計学的な概念だけで交絡変数を定義することはできず、そのためにはある程度の因果的想定が必要であることを示した[1]。Austin Bradford Hill は1965年の論文で因果関係の判定基準を提案した[2]。多くの疫学者はこれを交絡と因果関係を考える出発点として採用した。しかし、これはせいぜいヒューリスティック的な価値しかない。因果グラフによって因果的な想定を表す際には、backdoor≒バックドアといわれる簡単な基準によって、交絡変数の集合を特定することが可能である。

研究における交絡の回避方法

研究において、交絡変数を積極的に除去したり制御したりする方法がいくつか存在する[3]

ケースコントロール研究(case-control studies)
ケース群とコントロール群に共通する交絡変数の値を揃えて他の変数を比較する方法。例えば、67歳の患者の心筋梗塞の原因を研究するときに年齢が交絡変数になると考えられるならば、67歳のその患者(ケース)と67歳の健常者(コントロール)を対照する。ケースコントロール研究では、対照する変数は年齢や性別であることが多い。
コホート研究(cohort studies)
ある交絡変数の値が等しい集団の中で他の変数を比較する方法。例えば、年齢が交絡変数になると考えられるとき、年齢層をそろえた集団(コホート)を対象として観測する。その集団の中で、例えば心筋梗塞の原因として運動量の多寡で対照する。
層化(stratification)
心筋梗塞において、運動量が多いほど罹患する割合が低く、年齢が交絡変数になりうると仮定する。このとき、サンプリングされたデータは年齢層によって層化される。すなわち、運動量と心筋梗塞の関係を年齢層ごとに分析する。年齢層によって罹患率に差が生じるなら、年齢が交絡変数であると考えられる。層化されたデータを扱う統計手法としてマンテル=ヘンツェル法などがある。

これらの手法にはそれぞれ欠点がある。例えば、ケースコントロール研究の対象者(ケース)が、ある病気にかかった45歳のアラスカ出身の黒人で、フットボール選手で、菜食主義者で、教育者として働いている人であったとする。対照者として、属性がほとんど同じでその病気に罹患していない点だけが異なる人を見つけなければならないが、これは大変な作業である。また、常に過大対応や過少対応のリスクがつきまとう。コホート研究では、研究対象から除外される人があまりにも多くなる傾向があり、層化では層が薄くなりすぎる(標本サイズが小さすぎる)傾向がある。

既知の交絡変数を測定することによって交絡を制御し、それらを多変量解析における共変動とする方法もある。ただし、層化と比較して、交絡変数の強さに関する情報をほとんど得られないという欠点がある。

重要な問題として、交絡変数は必ずしも判別・測定が可能であるとは限らない。疫学では交絡を完全に制御できないことを指して残余交絡(residual confounding)という。標本サイズが大きいならば、無作為化(無作為割付)が最も良い方法であることが多く、その場合は(既知のものも未知のものも含めた)全ての交絡変数が全ての研究対象群に等しく分散していると考えられる。

脚注

  1. ^ Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. ISBN 0-521-77362-8 
  2. ^ Bradford Hill, Austin (1965). “The environment or disease: association or causation?”. Proc R Soc Med 58 (May): 295–300. PMID 14283879. http://www.edwardtufte.com/tufte/hill. 
  3. ^ Hennekens, Charles H; Buring, Julie E; Mayrent, Sherry L (1987). Epidemiology in Medicine. Lippincott Williams & Wilkins. ISBN 0-316-35636-0 

関連項目

外部リンク

  • Linear Regression (Yale University)
  • Scatterplots (Simon Fraser University)
  • Pearl, J. "Why there is no statistical test for counfounding, why many think there is, and why they are almost right," UCLA Computer Science Department, Technical Report R-256, January 1998
  • 交絡:因果の判断を惑わすもの 国立環境研究所
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ