標準偏差

平均は同じであるが標準偏差が大きく異なるデータヒストグラムの例。赤で示されたデータの方が青で示されたデータよりも標準偏差が小さい。
平均 0, 標準偏差 σ正規分布確率密度関数。この分布に従う確率変数が 0 ± σ の間に値をとる確率はおよそ 68% であることが読み取れる。

標準偏差ひょうじゅんへんさ: standard deviation, SD)とは、データ確率変数の、平均値からの散らばり具合(ばらつき)を表す指標の一つである。偏差ベクトルと、値が標準偏差のみであるベクトルは、ユークリッドノルムが等しくなる。

標準偏差を2乗したのが分散であり、従って、標準偏差は分散の非負の平方根である[1]。標準偏差が 0 であることは、データの値が全て等しいことと同値である。

母集団や確率変数の標準偏差を σ で、標本の標準偏差を s で表すことがある。

二乗平均平方根 (RMS) を用いると、標準偏差は偏差の二乗平均平方根に等しくなる。

概要

データ x1, x2, …, xn平均値からの散らばり具合を数値にした標準偏差は、次の式で定義される:

s = 1 n i = 1 n ( x i x ¯ ) 2 {\displaystyle s={\sqrt {{\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}

ここで x は平均値を表す。この定義は、データを数ベクトルと見て、「散らばり具合」を偏差ベクトルのユークリッドノルムととらえる考えに基づく(このことより平均偏差でなく自乗平均をとる)。

もとのデータ x を、平均値、「散らばり具合」を変えず、偏差が全て同じであるように取り直したデータ y を考える。
x の大きさが奇数のときは、x を、自分自身2個を併せたデータ(大きさは偶数)に取り直す(そうしても平均値、「散らばり具合」は変わらない)。
y の偏差ベクトルは s, ±s, …, ±s) (s ≥ 0) の形になる。xy の「散らばり具合」が等しいことから、
x x ¯ = ( ± s , , ± s ) {\displaystyle \|{\boldsymbol {x}}-{\overline {\boldsymbol {x}}}\|=\|(\pm s,\cdots ,\pm s)\|}
n s 2 = i = 1 n ( x i x ¯ ) 2 {\displaystyle ns^{2}=\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}
s = 1 n i = 1 n ( x i x ¯ ) 2 {\displaystyle s={\sqrt {{\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}} //

標準偏差は平方根を取るため、簡単な計算法則が成り立ちにくいという特徴がある。そこで分散 s2

s 2 = 1 n i = 1 n ( x i x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}

で定義する。分散には簡単な計算法則がいくつか成り立つことから、種々の標準偏差ができるようになる。

詳細は「分散 (統計学)」を参照

標準偏差の概念は、イギリス統計学フランシス・ゴルトンにより、親子の身長の相関関係を調べる中で初めて見出された[2]。データを数ベクトルと見る考え方は相関係数の導入と命名につながった。ゴルトンはこれらの研究により平均への回帰という現象を見出した[3]

ユニヴァーシティ・カレッジ・ロンドンのゴルトン研究室を継承した[4]カール・ピアソンはゴルトンの研究を定式化[2]、体系化し[5]、初めて "standard deviation"(「標準偏差」)と名付けた[6][7][8]

確率分布において最も基本となる正規分布曲線において、変曲点x座標と平均の絶対差は標準偏差に等しくなる。このことから、標準偏差は信頼区間の基本的な単位となる。

日本の受験業界で広く使われている学力偏差値は標準偏差の応用例の一つで、異なる試験でも、平均点よりどれだけ離れているかをある統一した尺度でとらえることができるようになっている。

金融工学においては、株式リスク確率分布の標準偏差でとらえることがある[9][10]

母集団の標準偏差

母集団全てのデータ x1, x2, …, xn に対して、平均値 x は次の式で定義される:

x ¯ = 1 n i = 1 n x i {\displaystyle {\overline {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}}

この平均値 x を使って得られる分散 σ2 を次の式で定義する:

σ 2 = 1 n i = 1 n ( x i x ¯ ) 2 = 1 n i = 1 n x i 2 x ¯ 2 {\displaystyle \sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}={\dfrac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\overline {x}}^{2}}

σ2 を母分散と言うこともある。

この分散の非負の平方根 σ を、母集団の標準偏差と定義する[11]。分散もデータの散らばり具合を表す統計量であるが、分散と違い標準偏差はデータの値と次元が等しくなる。偏差は平均的には標準偏差の分だけ離れていると考えることができる[12]

標本の標準偏差

標本標準偏差

母集団の中から、大きさ n(母集団の大きさよりはるかに小さい)の標本 x1, x2, …, xn を抽出したとする。このとき、標本平均は次の式で表される:

x ¯ = 1 n i = 1 n x i {\displaystyle {\bar {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}}

この標本平均を使って次式で定義される量を標本分散と呼ぶ:

s 2 = 1 n i = 1 n ( x i x ¯ ) 2 = 1 n i = 1 n x i 2 x ¯ 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\bar {x}}^{2}}

標本分散の平方根 s標本標準偏差と呼ぶ[11]

不偏標準偏差

σ2 を母分散、s2 を標本分散とすると、標本分散の期待値 E[s2] は、

E [ s 2 ] = n 1 n σ 2 {\displaystyle E[s^{2}]={\frac {n-1}{n}}\sigma ^{2}}

となることが示される。つまり、標本分散は母分散よりも少し小さくなる[注釈 1]。そのため、標本分散は母分散の不偏推定量ではない。そこで、

v 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 = 1 n 1 i = 1 n x i 2 n n 1 x ¯ 2 {\displaystyle v^{2}={\frac {1}{n-1}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n-1}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1}}{\bar {x}}^{2}}

を考えると、この量の期待値は母分散に等しく、母分散の不偏推定量になっている。

こうして定義される v2 を不偏分散という。v不偏標準偏差という。

紛らわしいが、 v2標本分散と呼ぶこともある。さらに v2平方根 v標本標準偏差ということもある。名称の混乱については後述する。

母集団の標準偏差の不偏推定量

前述のように不偏分散は、母分散の不偏推定量である(標本から測定した推定量の期待値が母分散に等しい)。しかし、不偏分散の平方根 v は、母集団の標準偏差の不偏推定量ではない。

母集団が正規分布に従う場合、母集団の標準偏差の不偏推定量 D は次式で与えられる[13]

D = n 1 2 Γ ( n 1 2 ) Γ ( n 2 ) v {\displaystyle D={\sqrt {\frac {n-1}{2}}}{\frac {\Gamma \left({\frac {n-1}{2}}\right)}{\Gamma \left({\frac {n}{2}}\right)}}v}

ここで、Γガンマ関数v2 は不偏分散である。

標本の大きさが大きくなれば、母集団の標準偏差の不偏推定量 D は、近似的に、平均からの偏差平方和を n − 1.5 で割った値の平方根として求められる[14]

D 1 n 1.5 i = 1 n ( x i x ¯ ) 2 = 1 n 1.5 i = 1 n x i 2 n n 1.5 x ¯ 2 {\displaystyle D\approx {\sqrt {{\frac {1}{n-1.5}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\sqrt {{\dfrac {1}{n-1.5}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1.5}}{\bar {x}}^{2}}}}

名称の混乱

統計の教科書によっては、不偏分散(分母が n − 1 の方)を「標本分散」と呼んでいる場合もあり[15]、用語が混乱して使用されている場合がある。母平均が不明で、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い[16]

英語

英語では不偏分散による標準偏差のことを「sample standard deviation」(標本標準偏差)と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された[17]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。

  • 英語版ウィキペディアの「standard deviation」という記事では、不偏分散による標準偏差(平均からの偏差平方和を n − 1 で割った値の平方根)のことを「corrected sample standard deviation」と表記し、平均からの偏差平方和を n で割った値の平方根を「uncorrected sample standard deviation」や「the standard deviation of the sample」と表記している[出典無効]
  • アメリカの Fundamentals of Engineering (FE) の試験問題での「sample standard deviation」は n − 1 で割る方を意味する。
  • アメリカ・ユタ大学のトム・マロイは、統計学の学習者向けウェブページ[18]では、「sample standard deviation」を平均からの偏差平方和を n で割った値の平方根だと解説している。

日本語

日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 v2 の平方根を、不偏標準偏差だと教える大学教員も多いが、母集団の標準偏差の不偏推定量 D を不偏標準偏差だと教える教員もいる。

  • 兵庫大学の河野稔によるウェブページ[19]や神戸大学の中澤港によるウェブページ[20]では前者である。
  • 東北学院大学の根市一志による資料[21]では後者である。

このように、同じ用語でも話者によって定義が異なる場合がある。

表計算ソフト

表計算ソフトでは次のようなワークシート関数が用意されている。

分母 Microsoft Excel
Googleスプレッドシート
Lotus 1-2-3
n STDEVP, STDEVPA, STDEV.P
-
n − 1 STDEV, STDEVA, STDEV.S @STD, @STDS

確率変数の標準偏差

離散型確率変数

X を離散型確率変数とする。X のとりうる値を x1, x2, …, xn, … とし、Xxi をとる確率を pi で表す。このとき

i = 1 p i = 1 ( p i 0 ) {\displaystyle \textstyle \sum \limits _{i=1}^{\infty }p_{i}=1\quad (p_{i}\geq 0)}

である。このとき

E [ X ] = i = 1 p i x i {\displaystyle E[X]=\textstyle \sum \limits _{i=1}^{\infty }p_{i}x_{i}}

を確率変数 X期待値という。また、

V [ X ] = E [ ( X E [ X ] ) 2 ] = i = 1 p i ( x i E [ X ] ) 2 = E [ X 2 ] ( E [ X ] ) 2 {\displaystyle V[X]=E{\Bigl [}{\bigl (}X-E[X]{\bigr )}^{2}{\Bigr ]}=\textstyle \sum \limits _{i=1}^{\infty }p_{i}{\bigl (}x_{i}-E[X]{\bigr )}^{2}=E[X^{2}]-(E[X])^{2}}

を確率変数 X の分散という。この分散の非負の平方根標準偏差という。

連続型確率変数

X を連続型確率変数とする。X の値が区間 [x1, x2] に属する確率が、連続関数 f(x) を用いて

x 1 x 2 f ( x ) d x {\displaystyle \int _{x_{1}}^{x_{2}}\!f(x)\,dx}

と表せるとき、f(x)X確率密度関数という。このとき

f ( x ) 0 , f ( x ) d x = 1 {\displaystyle f(x)\geq 0,\quad \int _{-\infty }^{\infty }\!f(x)\,dx=1}

である。このとき

E [ X ] = x f ( x ) d x {\displaystyle E[X]=\int _{-\infty }^{\infty }\!xf(x)\,dx}

を確率変数 X期待値という。また、

V [ X ] = ( x E [ X ] ) 2 f ( x ) d x {\displaystyle V[X]=\int _{-\infty }^{\infty }\!{\big (}x-E[X]{\big )}^{2}f(x)\,dx}

を確率変数 X の分散という。この分散の非負の平方根標準偏差という。

標準偏差の推定

母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を σ、大きさ N の標本の標準偏差を s とすると、母集団分布が正規分布ならば σ2 は次の自由度 N − 1χ2 分布に従う。

χ 2 = N s 2 σ 2 {\displaystyle \chi ^{2}={\frac {Ns^{2}}{\sigma ^{2}}}}

σ の95%信頼区間P = 0.975χ2 から P = 0.025χ2 までの範囲で、sσ の比は N = 5 では 0.31 から 1.49、N = 20 では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。

zp
pz
信頼区間 信頼度 不信頼度
百分率 百分率 分数
0.318639σ 25% 75% 3/4
0.674490σ 50% 50% 1/2
0.994458σ 68% 32% 1/3.125
1σ 68.2689492% 31.7310508% 1/3.1514872
1.281552σ 80% 20% 1/5
1.644854σ 90% 10% 1/10
1.959964σ 95% 5% 1/20
2σ 95.4499736% 4.5500264% 1/21.977895
2.575829σ 99% 1% 1/100
3σ 99.7300204% 0.2699796% 1/370.398
3.290527σ 99.9% 0.1% 1/1000
3.890592σ 99.99% 0.01% 1/10000
4σ 99.993666% 0.006334% 1/15787
4.417173σ 99.999% 0.001% 1/100000
4.5σ 99.9993204653751% 0.0006795346249% 1/147159.5358 = 3.4/1000000
4.891638σ 99.9999% 0.0001% 1/1000000
5σ 99.9999426697% 0.0000573303% 1/1744278
5.326724σ 99.99999% 0.00001% 1/10000000
5.730729σ 99.999999% 0.000001% 1/100000000
6σ 99.9999998027% 0.0000001973% 1/506797346
6.109410σ 99.9999999% 0.0000001% 1/1000000000
6.466951σ 99.99999999% 0.00000001% 1/10000000000
6.806502σ 99.999999999% 0.000000001% 1/100000000000
7σ 99.9999999997440% 0.000000000256% 1/390682215445

脚注

[脚注の使い方]

注釈

  1. ^ 極端な例として、標本の大きさが 1 の場合、ばらつきがないので標本の分散は必ず 0 となるが、母集団のばらつきは通常 0 ではない。

出典

  1. ^ JIS Z 8101-1:1999, 1.13 分散.
  2. ^ a b 高校からの統計・データサイエンス活用 総務省政策統括官(統計基準担当)p.34
  3. ^ 平均への回帰、相関係数―統計学史(2) ブログ 統計WEB
  4. ^ 農環研ウェブ高座 「農業環境のための統計学」 第10回 (農業と環境 No.158 2013.6)
  5. ^ 酒井弘憲「第5回 統計学の巨人:ゴルトンとピアソン」『ファルマシア』第52巻第2号、日本薬学会、2016年、164-165頁、doi:10.14894/faruawpsj.52.2_164、ISSN 0014-8601、NAID 130005127751。 
  6. ^ カール ピアソンとは - コトバンク
  7. ^ 【科学史の肖像】Karl Pearson, 1857-1936
  8. ^ 標準偏差の名付け親は,相関係数で有名なピアソン,不偏標準偏差の話題と共に 生物科学研究所 井口研究室
  9. ^ 分散投資の意義② 投資のリスクとは|年金積立金管理運用独立行政法人
  10. ^ 標準偏差・分散|証券用語解説集|野村證券
  11. ^ a b 栗原 2011, p. 47
  12. ^ 稲垣 1990, p. 21.
  13. ^ 吉澤 1989, pp. 78–79.
  14. ^ Brugger 1969, p. 32.
  15. ^ 例:(東京大学教養学部統計学教室編 1991)。
  16. ^ 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52–53)などを参照。
  17. ^ “Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。
  18. ^ 「Estimating Parameters Web Page」
  19. ^ 「健康統計学-散布度」
  20. ^ 「高崎経済大学非常勤講義 第4回「記述統計(2):代表値」」
  21. ^ 「標準偏差の不偏性」

参考文献

  • Brugger, Richard M (1969-10). “A Note on Unbiased Estimation of the Standard Deviation”. The American statistician (アメリカ統計学会) 23 (4): 32. ISSN 0003-1305. 
  • 吉澤康和『新しい誤差論 - 実験データ解析法』共立出版、1989年。ISBN 4320014243。 
  • 稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。 
  • 『統計学入門』東京大学出版会、1991年。ISBN 4-13-042065-8。 
  • 村瀬洋一、高田洋、廣瀬毅士『SPSSによる多変量解析』オーム社、2007年。ISBN 4-27-406626-6。 
  • 栗原伸一『入門統計学検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3。https://books.google.com/books?id=r5JIE8QbPbAC 
  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。 
  • 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204 
  • 日本数学会 編『数学辞典』岩波書店、2007年。ISBN 9784000803090。 
  • 日本規格協会, JIS Z 8101-1:1999 統計−用語と記号−第1部:確率及び一般統計用語, http://kikakurui.com/z8/Z8101-1-1999-01.html 

関連項目

外部リンク

  • Weisstein, Eric W. "Standard Deviation". mathworld.wolfram.com (英語).
  • 『標準偏差』 - コトバンク
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース: 国立図書館 ウィキデータを編集
  • ドイツ
  • イスラエル
  • アメリカ