箱ひげ図

アヤメの花弁の長さの分布を種ごとに表す箱ひげ図(Iris flower data set)

箱ひげ図(はこひげず、箱髭図、: box plot、box-and-whisker plot)は、データの統計的ばらつきをわかりやすく表現するための統計図である。主に多くの水準からなる分布を視覚的に要約し、比較するために用いる。ジョン・テューキーが1970年代に提唱した。様々な分野で利用されるが、特に品質管理で盛んに用いられる。box)と、その両側に出たひげwhisker)で表現されることからこの名がある[1]

定義

箱ひげ図は五数要約(five-number summary)と呼ばれる(頑健な)要約統計量

  • Q0/4: 最小値(minimum
  • Q1/4: 第1四分位点(lower quartile
  • Q2/4: 中央値(第2四分位点、median
  • Q3/4: 第3四分位点(upper quartile
  • Q4/4: 最大値(maximum

を表すグラフである。第1四分位点から第3四分位点までの高さに箱を描き、中央値で仕切りを描く。ただし、ひげや外れ値、箱の幅・形などの扱いにはいくつか変種がある。簡明なのは最大値と最小値をひげの端で表したものである。外れ値も扱うときには閉区間

[ Q 1 / 4 1.5 I Q R , Q 3 / 4 + 1.5 I Q R ] ( I Q R = Q 3 / 4 Q 1 / 4 ) {\displaystyle [Q_{1/4}-1.5\,\mathrm {IQR} ,\,Q_{3/4}+1.5\,\mathrm {IQR} ]\qquad (\mathrm {IQR} =Q_{3/4}-Q_{1/4})}

の外にあるものを(もしあれば)外れ値として個別に表示し、外れ値を除いたものの最大値・最小値にそれぞれひげの端をとる[2][3]母集団は実際には様々なタイプの確率分布に従うわけだが、箱ひげ図はそのような仮定に関係なく、データの分布を表現することができる。箱の各部分の間隔から分散や歪度の程度を知ることもできる。

以下に箱ひげ図の具体例を挙げる:

箱ひげ図の具体例
箱ひげ図の具体例

このデータセット(値は図から読み取れる概略値とする)から、次のことが分かる。

  • 最小値 = 0.5
  • 第1四分位点 = 7
  • 中央値(第2四分位点) 8.5
  • 第3四分位点 = 9
  • 最大値 = 10
  • 四分位範囲(IQR) = 2
  • 3.5という値は"軽度の"外れ値、つまりQ1/4よりも 1.5×IQR から 3×IQR だけ下にある
  • 0.5という値は"極端な"外れ値、つまりQ1/4よりも 3×IQR 以上下にある
  • 外れ値以外の最小値は5
  • データは左に歪んでいる(負の歪度)

"軽度"および"極端"外れ値の境は、箱の長さの2倍の点である。なお、この図からデータの平均値は読み取れない。

変種

いろいろな統計パッケージで使われている箱ひげ図の中には、違う方式(例えば5%点と95%点をひげの端にする)を採用したものもある。このような方式は、中央値を中心とする分布を強調するテューキーの方式と異なり、またデータサイズが10を越えただけで(分布の形によらず)外れ値を出してしまう傾向がある。

脚注

  1. ^ 西岡康夫,数学チュートリアル やさしく語る 確率統計,1.6 箱ひげ図 p.13, オーム社, 2013, ISBN 9784274214073
  2. ^ Dekking et al. 2005, 16.4 The box-and-whisker plot.
  3. ^ R言語boxplotもデフォルトではこのようにプロットする。

参考文献

  • Dekking, F. M.; Kraaikamp, C.; Lopuhaä, H. P.; Meester, L. E. (2005). A modern introduction to probability and statistics. Springer Texts in Statistics. Springer-Verlag. ISBN 978-1-85233-896-1. MR2208349. https://books.google.com/books?id=TEcmHJX67coC 
  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。 

関連項目

外部リンク

  • 総務省統計局. “箱ひげ図”. なるほど統計学高等部. 2016年3月29日閲覧。Excelで箱ひげ図を作る方法
  • “What is Box plot”. 2023年7月8日閲覧。R言語で箱ひげ図を作る方法
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ