統計図表

ウィキペディア ウィキペディアにおける表の作成方法についてはHelp:表の作り方を、棒グラフの書き方についてはHelp:棒グラフの書き方をご覧ください。

統計図表(とうけいずひょう)は、複数の統計データの整理・視覚化・分析解析などに用いられるグラフ[1][2][3][4][5][6][7][8][9][10][11][12][13]および表[要出典]の総称である。ここで、グラフとは「図形を用いて視覚的に、複数の数量・標本資料の関係などを特徴付けたもの」を指す。この意味においてのグラフはしばしば「統計グラフ」と呼ばれる。

統計図表は、統計データの整理・分析・検定などの過程で用いられる。統計図表を駆使することで

  • 調査活動によって得られた数量(統計データ)の特徴(増減の傾向の型、集団の構成など)
  • 統計データ同士の関係(相関関係など)

を視覚的に理解できる。

概要

統計図表を適切に活用すれば

  • 統計データの特徴(増減など)をつかむ
  • 得られた統計データを系統だてて比較する

など、現状把握や客観的判断を行ううえで大きな手助けとなる。統計図表を用いて、統計データの傾向などを把握することを「統計データの解釈」あるいは「資料解釈」という。

どんなときにどんなグラフを用いるのがよいのだろうか?研究やそれに準じる調査活動において統計グラフを作成する必要がある局面は

  • 実験ノート上などの一次的な記録物や計算紙などの上でのデータの簡易的な分析
  • 実験・調査後に行う本格的なデータの分析
  • 論文・講演のスライドなどの公表用の資料

など様々な状況がありえるが、どのような場合においても、

  • 「何を分析するのか」「何を主張するのか」「何を検定するのか」といった目的意識(下記統計グラフで分かること参照)
  • 研究目的に照らして適切に取得・処理された統計データそのもの

がなければ統計グラフの作成が不可能である。これについては「統計図表を作る前に」で述べる。

統計グラフの作成は方眼紙などを用いるのが基本だが、小中学校の教育の現場を除けば、最近ではExcelなどの表計算ソフト、場合によってはOriginやカレイダグラフなどの統計ソフトを用いるほうが多いと思われる。

統計図表を作る前に

統計図表の作成は、実験・社会調査マーケティングなどの調査活動におけるデータの整理・分析の一環として行われる。統計グラフの作成を、調査活動自体から切り離して考えるのは難しい。何を分析するのか、何を訴えるのかによって「適切なグラフは何か」が変わってくる。一般的な見地から「正しい統計グラフを作成するための目安」(一般的な精神のほか、「棒グラフを用いるのが適切な側面」のような事例分析)を示すこと自体は可能だが、馬鹿の一つ覚えは通用しない(データマイニング参照)。それぞれの場合に応じて、工夫をこらすだけの力をもつのが必要で、そのためにはよいといわれる論文などに掲載されている統計図表を、その論旨と照らし合わせながら吟味して、目を肥やす必要がある。

また、統計データそのものがない状態で、あたかもそれがあるように偽ってグラフを作成して発表しまっては、少数の例外を除き捏造である[注釈 1]。あくまで統計グラフの作成は、データの加工手段の一つである。「目的や着眼点に沿って散在する情報を収集する」という過程なしには成立し得ない。さらに言えば、グラフ作成の前に、データ自体に何らかの統計処理を加える場合がある。データの取得・処理の妥当性については、グラフの選択やスケールなどの設定以前の問題だが、この段階で問題がある場合には、グラフ自体の価値はなくなる。ただし、データの取得・処理の妥当性についても、統計学特に実験計画法などの体系的な学問が存在するが、安易に可否を決められる問題ではない。

先にも述べたように、グラフを作成する上では、

  • 「何を分析するのか」「何を主張するのか」「何を検定するのか」といった目的意識(下記統計グラフで分かること参照)
  • 研究目的に照らして適切に取得、処理された統計データそのもの

を明確にしておく必要がある[3][5]。 たとえば「ここに全国の小学生それぞれの身長・体重・学年・学校を記したデータがあります。さぁ統計グラフを作ってください」といわれたとして、データとしては膨大であるにしても、これだけの“情報”では「どのようなグラフをどのように作成するのが適切か」を決めることはできない。つまり、

  • 使用するグラフの種類(円グラフにするのか、棒グラフにするのかなど)
  • 主要なパラメータの選択(棒グラフの場合は軸の設定、円グラフの場合には分類の設定、ヒストグラムの場合には階級の設定)
  • スケールの選択

などが定まらない(「統計グラフの種類と、グラフ選択の目安」参照)。たとえば

  • 身長のバラつき(ここでは敢えて、評価方法を特定しないために素朴なバラつきという言葉を用いる。)が見たい(普通はヒストグラムを使う)
  • 身長と体重の関係を見たい(普通は散分図を用いる)

のように、同じデータを用いたとしても何を議論するのかによって適切なグラフは異なる。同じ「身長のバラつき」が見たいと言った場合でも

  • 小学2年生身長のバラつきが見たい(ヒストグラム)
  • 小学2年生身長のバラつきと、5年生の身長のばらつき具合を比較したい(2個のヒストグラムをスケールを統一して表示。あるいは、箱ひげ図を用いる)

のように、スケールの選択や場合によってはグラフの選択さえ変わってくる。無論、複数の種類のグラフを選択し得る場合もある。なお、目的が明確になったとしても、どのような問題を論じるのにはどのようなグラフがよいのかについて知らねば、どうにもならないが、これについては後述する。

グラフ作成の下準備の過程は、概ね下記のとおりである[3][5]

  1. 作成する統計グラフの主題を決める
  2. 作成するグラフの主題に沿って必要と思われるデータを収集・整理する
  3. データの取捨選択、主題の再検討
  4. どのようなグラフを作成するのかを検討する
  5. 実際に作成する

より一般に、グラフを作成するという問題は「『主張すべき事柄』を論証するための素材をどのような素材を集め、それをどのように配置するか」という問題の一部である。統計グラフの作成までの具体的な手順は、人それぞれで状況次第ではあるが、どのような場合においても「どのようなデータからどのような知見を得ようとするのか」がある程度定まらなければ作成できない。そのため統計グラフ作成の手順は、研究の手順とほぼ同じで、概ね 「目的や着眼点に沿って散在する情報を集約した後、それを整理・分析し、特徴・傾向を見出す」という過程を経る。当然の話だが、これらの各段階が適切に行われていることが、グラフ自体の適切・不適切を決める。

統計グラフの種類と、グラフ選択の目安

統計グラフの分類は、人によって様々だが、よく使われるものから順に

などがある[3][5][11][12][13]。これらそれぞれの説明は、それぞれの項目に委ねる。

統計グラフ選択の目安を以下に示す。[1][2][3]

  • 1種類の系列からなるデータの時間的推移(時間との相関)- 折れ線グラフ(散布図の一種に分類されることが多い)
  • 2種類の系列からなるデータの相関 - 散布図
  • 3種類の系列からなるデータの比較 - 2次元等高線図、ヒートマップ(塗りつぶした2次元等高線図)、3次元等高線図(高次元の散布図の一種に分類されることがある)
  • 大きさの比較 - 棒グラフ
  • 内訳や構成比を見る - 円グラフ
  • ばらつきをみる - ヒストグラム(棒グラフの一種に分類されることが多い)・エラーバー付き線グラフ・箱ひげ図

実証的な研究分野における統計図表の活用

自然科学社会科学人文科学を問わず、統計を根拠とした実証性が求められる研究分野では、データの整理・分析の一環として、統計図表を作成する局面が多数ある。具体的には、

  • 実験ノート上などの一次的な記録物や計算紙などの上でのデータの簡易的な分析
  • 実験・調査後に行う本格的なデータの分析
  • 論文・講演のスライド等の公表用の資料

など様々な状況がありえる。 そして、いずれの分野においても、

  • 「何を分析するのか」「何を主張するのか」「何を検定するのか」といった目的意識
  • 研究目的に照らして適切に取得・処理された統計データそのもの

といった場面が挙げられる。

変量同士の相関を議論することが主となる場合には、実際に用いられるグラフのほとんどが散布図である。そのほか等高線図や2次元分布図等の広い意味でのカラーグラフ(2D3D)、棒グラフである。棒グラフはヒストグラムの提示に用いられるのがほとんどである。3Dグラフは、正しく使えば値の3次元的な分布を正確かつ直感的に伝えることができるため、特に最近では、権威ある査読つき論文においてもよく使われている。箇条書きにすると、以下がよく使われる。

  • 二次元分布図(2D mapping,カラーマッピング)[14]・等高線図およびそのラインプロファイル(断面プロファイル)[15]
  • 散布図・エラーバー付き散布図およびその回帰曲線
  • ヒストグラム

統計処理に際し、本来的に「データは連続的な量として取得されているはず」という暗黙の前提があり、物理学化学工学経済学心理学問わず「変量同士の相関」を見るのが主な目的であるため、理想的には関数グラフのようなものを得たいという考えが暗にある。そのため圧倒的大多数において散布図を用いて

  • 2種類(あるいは3種類)のデータの相関を散布図にまとめる
  • そのデータに最もフィットし、現象論的にもっともらしい回帰曲線を描く(アレニウスプロットなど)

という処理が行われる。作成される散布図は、少数のデータから全体像を推測する場合には、「実際のデータの測定値」をそのまま散布図上に書き込むことが多い。データのラベルが離散的で、かつデータの量が充分多数で、そのデータの分布が正規分布に従っている場合には、ラベルごとの平均値のみをプロットし、それに適切なエラーバーをつける方法で作成されることが多い。

コンピュータ技術の進展により、統計グラフと画像(写真)の区別が曖昧になってきているという傾向がある。デジタル化された画像は空間座標・色の2種類の系列からなる情報の相関関係を2次元的あるいは3次元的に示したある種のカラーグラフの一種でしかなく、実際カラーグラフとして作成された等高線図などと解像度や、数字の羅列としてのデータ自体のみからでは区別がつかない。

初等教育の過程で重視される折れ線グラフは、ロードマップなどの未来技術予測などには多用されるものの、

  • 自然科学特に物理学において時間的推移(時系列)とは「時間と測定結果の相関」に過ぎない
  • ExcelやOriginなど一部のグラフ作成機能を有するソフトウェアでは「散布図の各点を棒で結ぶ」という方法で折れ線グラフが作成できる
  • 特にExcelでは、仕様上折れ線グラフは「目盛り間隔は必ず等間隔」とされていて、ある特定の時間のデータが欠落した場合などに不自由するが、散布図として作成すればそのような問題が生じない

などの理由から、ほとんどの場合は散布図にとってかわられている。

データの存在しない場合

データのないグラフが描かれる場合もある。例えばある考えを主張する場合、それを説明するために、言葉で行うのが普通であるが、おそらくデータがあればこうなる、という形でグラフが活用されることがある。

例えば島嶼生態学における種数平衡説は、海洋島における生物の種数を島へ新たに入植する種数と島で絶滅する種数の間の平衡によって決定されると論ずるが、前者については大陸からの距離が遠くなるほど低くなる、また後者は島が小さいほど高くなるということは容易に想像できる。これをグラフ化すれば、両者の曲線が中程の特定の点で交差し、そこがその島の種数の平衡点にあたることになるだろうことが容易に理解できる。この場合、実際にその曲線がどのような形であるかは実際の調査が必要であろうが、いずれにせよ右上がり、右下がりであれば議論が成立するので、グラフを作成することは虚偽にならない範囲でそれにわかりやすさをもたらす効果がある。

学校教育等における統計図表に関する指導

最近では統計グラフの作成・解釈はノート作成、プレゼンテーション技術、文章技術などと並び、調査活動を行ううえで必要なアカデミックスキルの一つだと考えられるようになってきた。しかし、統計グラフの作成・解釈に関する系統だった指導は、あまりおこなわれていない。

小学校における算数の時間では棒グラフや折れ線グラフ、ドットプロットの扱いを習い、中学校の数学では、単元「資料の整理」の中でヒストグラムや箱ひげ図について学習する。また、高等学校の数学教科書には「統計」の項目があり、そこでも簡単に触れられる。また、小中高を通じて、地理の時間には、社会統計や等高線の扱いを白地図などを用いて学ぶ。小中高の理科の時間にも「実験データの整理」などという意味合いで教えられることがある。大学では、学生実験などにおいて実験ノート指導などと平行して指導される。

公務員試験などでは「資料解釈」という科目として出題される。システムアドミニストレータ試験においても「状況に応じた適切なグラフ選択」の問題が出題される。また、品質管理などの現場で教育されることがあり、品質管理関係の教材には、グラフの選択などに対して詳しい検討を行っているものがある。

脚注

[脚注の使い方]

注釈

  1. ^ グラフの使い方自体を議論・評価する場合には、架空のデータを用いることは問題ない。なお、特殊な例として科学的な予想をグラフ化する場合があり、その場合はデータが存在しないことはあり得る。下に詳述する。

出典

  1. ^ a b 内田治『グラフ活用の技術 データの分析からプレゼンテーションまで』
  2. ^ a b 南川利雄『表とグラフの作り方』
  3. ^ a b c d e 山本 義郎『レポート・プレゼンに強くなるグラフの表現術』(講談社現代新書
  4. ^ 東北大学 自然科学総合実験 グラフの書き方
  5. ^ a b c d http://www.pref.chiba.jp/syozoku/b_toukei/graph-con/gr_tsukurikata.html
  6. ^ 見延 庄士郎『理系のためのレポート論文完全ナビ』
  7. ^ 『実験データを正しく扱うために』
  8. ^ 吉村忠与志『厳選例題Excelで解く問題解決のための科学計算入門』
  9. ^ David Carr Baird・加藤幸弘・千川道幸・近藤康『実験法入門』(ピアソンエデュケーション)
  10. ^ Jane C. Miller『データのとり方とまとめ方―分析化学のための統計学とケモメトリックス』(共立出版)
  11. ^ a b http://office.microsoft.com/ja-jp/excel/HA012337371041.aspx?pid=CH100648751041
  12. ^ a b http://www.hulinks.co.jp/support/kaleida/plot.html#01
  13. ^ a b http://www.lightstone.co.jp/products/origin/graphselect.htm
  14. ^ Originの等高線グラフ-XYZデータから作成した等高線
  15. ^ Originの等高線グラフ-等高線プロファイル

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース: 国立図書館 ウィキデータを編集
  • 日本