順序統計量

順序統計量（じゅんじょとうけいりょう、英: order statistic）は、統計において、標本の確率変数を値が小さい順に並べることで得られる統計量である。日本産業規格では、「確率変数を非減少な順序に並べることによって得られる統計量」と定義されている^[1]^[2]。ノンパラメトリック統計学における最も基本的ツールである。

順序統計量に属する重要な値として、標本の最小値、最大値、中央値、分位などがある。

連続確率分布での無作為標本の順序統計量を確率論的に分析する場合、一様分布の順序統計量ならば累積分布関数によって分析を簡略化できる。

表記法と例

例えば、4つの数が観測され記録されたとすると、標本の大きさは $n=4$ となる。各観測値は以下のようであったとする。

6, 9, 3, 8,

通常はこれを次のように表記する。

x_{1}=6;x_{2}=9;x_{3}=3;x_{4}=8

$x_{i}$ の添え字 i は単に記録上の順序を表し、通常は重要なものではない。ただし、時系列のデータにおいては順序が重要となる。

順序統計量では次のように表記する。

x_{(1)}=3;x_{(2)}=6;x_{(3)}=8;x_{(4)}=9

ここで括弧で囲まれた添え字 (i) は順序統計量における i 番目の値を表す。

順序統計において、第一順序統計量（最小順序統計量）は最小値を表し、次のように表される。

X_{(1)}=\min\{X_{1},\dots ,X_{n}\}

ここで、確率変数を示す一般的な記法として大文字を使用している。小文字は具体的な観測値を指すのに使われる。

同様に大きさ n の標本で第 n 順序統計量（最大順序統計量）は最大値を表し、次のように表される。

X_{(n)}=\max\{X_{1},\dots ,X_{n}\}.

より一般に、順序統計量は

X_{(1)}\leq X_{(2)}\leq \dots \leq X_{(n)}

の関係で与えられる。

観測値の範囲は最大値と最小値の差である。これは明らかに順序統計量の関数となっている。

{\text{Range}}\{X_{1},\dots ,X_{n}\}=X_{(n)}-X_{(1)}.

探索的データ解析での類似の重要な統計量である四分位数は順序統計量に関係している。

標本の中央値（第2四分位点）は順序統計量となる場合もあるし、そうでない場合もある。これのは、標本の大きさ $n$ が奇数であった場合だけ唯一の中央値が存在するからである。正確に言えば、 $n=2m+1$ となる整数 $m$ があるとき、中央値 $X_{(m+1)}$ は順序統計量である。一方、 $n$ が偶数の場合は $n=2m$ となるので、中央値の候補は $X_{(m)}$ と $X_{(m+1)}$ の2つとなり、中央値はこれらの関数（一般に平均）で表されるため、順序統計量とは言えない。同様の注意はあらゆる標本分位点を求める際にも必要となる。

確率的解析

ここでは、標本X₁, X₂,..., X_nは無作為抽出で得られたもので連続確率分布に従うものとし、単純化のために、確率密度関数があるものとする（つまり絶対連続である）。

順序統計量の分布（一般の場合）

いま X₁, X₂,..., X_n は無作為抽出での標本であるとする。すなわち、同一分布に従い、互いに独立である（i.i.d.）とする。さらに、これらは連続分布を持つ確率変数であり、f (x) がその確率密度関数、F (x) が累積分布関数とする。また、これらを小さい順に並べた順序統計量をX₍₁₎, X₍₂₎,..., X_(n) とする。この時、k 番目の順序統計量X_(k)の累積分布関数は次式で与えられる。

F_{X_{(k)}}(x)=\sum _{j=k}^{n}{\binom {n}{j}}F(x)^{j}(1-F(x))^{n-j}

また、その確率密度関数は

f_{X_{(k)}}(x)={\frac {n!}{(k-1)!(n-k)!}}F(x)^{k-1}(1-F(x))^{n-k}f(x)

となる。

特に最小値 $X_{(1)}$ 、最大値 $X_{(n)}$ については、

{\begin{aligned}F_{X_{(1)}}(x)&=1-\{1-F(x)\}^{n}\\F_{X_{(n)}}(x)&=\{F(x)\}^{n}\end{aligned}}

となる。

導出の詳細

累積分布関数 $F_{X_{(k)}}(x)=P\left(X_{(k)}\leq x\right)$ において、確率値P( ) 内の事象は『n 個中少なくとも k 個の X_i が x 以下』 = 『x 以下の値がn 回の試行中 k 回以上発生する』を意味することから

{\begin{aligned}F_{X_{(k)}}(x)&=\sum _{j=k}^{n}{\binom {n}{j}}P(X\leq x)^{j}(1-P(X\leq x))^{n-j}\\&=\sum _{j=k}^{n}{\binom {n}{j}}F(x)^{j}(1-F(x))^{n-j}\end{aligned}}

が成り立つ。

確率密度関数と累積分布関数の関係に注意すれば、

{\begin{aligned}f_{X_{(k)}}(x)&={\frac {d}{dx}}F_{X_{(k)}}(x)\\&={\frac {d}{dx}}\sum _{j=k}^{n}{\binom {n}{j}}F(x)^{j}(1-F(x))^{n-j}\\&=nf(x)\left(\sum _{j=k-1}^{n-1}{\binom {n-1}{j}}F(x)^{j}(1-F(x))^{(n-1)-j}-\sum _{j=k}^{n}{\binom {n-1}{j}}F(x)^{j}(1-F(x))^{(n-1)-j}\right)\end{aligned}}

となる。上記の畳み込み級数の総和は、最初と最後の項以外は全て相殺されるため

=nf(x)\left({\binom {n-1}{k-1}}F(x)^{k-1}(1-F(x))^{(n-1)-(k-1)}-{n-1 \choose n}F(x)^{n}(1-F(x))^{(n-1)-n}\right)

となる。さらに第二項はゼロとなるから

{\begin{aligned}&=nf(x){\binom {n-1}{k-1}}F(x)^{k-1}(1-F(x))^{(n-1)-(k-1)}\\&={\frac {n!}{(k-1)!(n-k)!}}F(x)^{k-1}(1-F(x))^{n-k}f(x).\end{aligned}}

を得る。

順序統計量の分布（一様分布での例）

この節では、特に単位区間上の一様分布からの順序統計量を考え、それがベータ分布族に属する周辺分布を持つことを示す。また、任意個の順序統計量の同時分布を求め、累積分布関数を用いて任意の連続型分布のケースに一般化する簡単な方法を示す。

なお、 X₁, X₂,..., X_n が、累積分布関数 F_X を持つ連続型分布から得られた無作為標本とすると、 U_i = F_X(X_i) と置くことによって、標準一様分布にしたがう無作為標本 U₁,..., U_n が得られることに注意する。また、対応する順序統計量X₍₁₎, X₍₂₎,..., X_(n)においても、U_(i) = F_X(X_(i)) が成り立つことに注意する。

一様分布の順序統計量

標準一様分布からのk番目の順序統計量 U_(k) が [u, u + du] の範囲に落ちる確率は

{n! \over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}du+O(du^{2})

に等しい。よって、 U_(k)の確率密度関数は、

f_{U_{(k)}}(u)={n! \over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}={1 \over B(k,n-k+1)}u^{k-1}(1-u)^{n-k}

で与えられる。ここで、B (k, n-k+1 )はベータ関数を表す。したがって、U_(k)はベータ分布に従う確率変数

U_{(k)}\sim B(k,n+1-k)

となる。

導出の詳細

証明は以下の通り。U_(k) が u と u + du の間にあるためには、標本中の k − 1 個の要素が u より小さく、かつ少なくとも 1 個の要素が u と u + du の間にあることが必要である。複数の要素が後者の範囲にある確率は O (du²) となるため、求める確率は、k − 1 個の観測値が (0, u) に、1 個が (u , u +du) に、n − k 個が (u +du, 1) に落ちる場合に相当する。つまり、その確率は

{n! \over (k-1)!1!(n-k)!}u^{k}\cdot du\cdot (1-u-du)^{n-k}

に等しい（詳しくは多項分布参照）。

一様分布での順序統計量の同時確率

同様に、i < j であるとき、2つの順序統計量 U_i < U_j の同時確率密度関数は次のようになることが示せる。

f_{U_{(i)},U_{(j)}}(u,v)~du~dv=n!{\frac {u^{i-1}}{(i-1)!}}{\frac {(v-u)^{j-i-1}}{(j-i-1)!}}{\frac {(1-v)^{n-j}}{(n-j)!}}~du~dv

これは（O (du dv) までの項において）、区間 (0, u), (u, u + du), (u + du, v), (v, v + dv), (v + dv, 1) に落ちる標本要素の数が、各々 i − 1, 1, j − 1 − i, 1, n − j 個となる確率に等しい。

同様にして、より高次の同時分布も導くことができる。おそらく意外なことに、n 次の同時分布は次のような定数になる:

f_{U_{(1)},U_{(2)},\dots ,U_{(n)}}(u_{1},u_{2},\dots ,u_{n})~du_{1}\dotsb du_{n}=n!~du_{1}\dotsb du_{n}.

この一つの解釈として、「順序のない標本は確率密度 1 を持ち、同じ順序統計量の列に対応する n! 個の異なる順列を持つ標本が存在する」ことが考えられる。これは、領域 0< u₁ < … < u_n < 1 の体積が 1 / n! に等しいことと関係がある。

一般の場合での順序統計量の同時確率

一様分布での結果の応用として、一般の分布の n 個の標本抽出における k 個目の順序統計量 X_(k) の分布を考える。X_(k) の累積分布関数 F_X_(k) に対し、 f_X_(k)が対応する確率密度関数とする。このとき、一様分布への変数変換

U_{(k)}=F_{X(k)}(x)

を行い、f_X_(k) に前述の一様分布におけるf_U_(k) (u) の結果を代入すれば、次の確率密度関数が導かれる。

f_{X_{(k)}}(x)~dx={\frac {n!}{(k-1)!(n-k)!}}[F_{X}(x)]^{k-1}[1-F_{X}(x)]^{n-k}f_{X}(x)~dx

同様に2つの累積分布関数 F_X(j)、F_X(k) に対し、 f_X(j)、f_X(k)が対応する確率密度関数とする。このとき、一様分布への変数変換

U_{(j)}=F_{X(j)}(x),\quad U_{(k)}=F_{X(k)}(y)

を行い、f_X_(i),X(j)に先ほどの一様分布における同時確率分布f_U_(i),U(j)(u, v)の結果を代入すれば、次式を得る。

f_{X_{(j)},X_{(k)}}(x,y)~dx~dy=n!{\frac {[F_{X}(x)]^{j-1}}{(j-1)!}}{\frac {[F_{X}(y)-F_{X}(x)]^{k-1-j}}{(k-1-j)!}}{\frac {[1-F_{X}(y)]^{n-k}}{(n-k)!}}f_{X}(x)f_{X}(y)~dx~dy

同様に高次の場合について考えれば、次式を得る。

f_{X_{(1)},\dots ,X_{(n)}}(x_{1},\dots ,x_{n})~dx_{1}\dotsb dx_{n}=n!f_{X}(x_{1})\dotsb f_{X}(x_{n})~dx_{1}\dotsb dx_{n}

但し、x₁ < x₂ < … < x_nとする。

応用: 分位の信頼区間

中央値の推定

以下では、標本中央値によって母集団中央値がどの程度良く推定できるかを、最も単純なケースで考える。

小標本の例

例として、サイズ 6 の無作為標本を考える。この場合の標本中央値は、通常、3 番目と 4 番目の順序統計量で区切られた区間の中点として定義される。しかしこれまでの議論から、この区間が実際に母集団中央値を含む確率は次のようになる:

{6 \choose 3}2^{-6}={5 \over 16}\approx 31\%

標本中央値は母集団中央値のおそらく分布に依存しない最良の点推定であるが、この例は、標本中央値が絶対的な意味で優れているわけではないことを表している。母集団中央値のより良い信頼区間は、この例の場合、2 番目と 5 番目の順序統計量で囲まれた区間であり、母集団中央値を含む確率は次のようになる:

\left[{6 \choose 2}+{6 \choose 3}+{6 \choose 4}\right]2^{-6}={25 \over 32}\approx 78\%

このように小さな標本サイズでは、もしも少なくとも 95% の信頼度が欲しければ、確率 31/32 つまり約 97% で 6 個の観測値の最小値と最大値の間にある、と表現することになってしまう。サイズ 6 は、最小値と最大値で決まる区間が、少なくとも 95% 信頼区間になるような最小の標本サイズである。

もしも分布が対称であることがわかっていて、分散が有限ならば（例えば正規分布のような場合）、母集団の平均値は中央値に等しく、標本平均値は標本中央値よりもかなり良い信頼区間を持つ。これは、分布に依存しない統計的方法の相対的弱点を表している。他方において、もしも間違った分布に立脚した方法を用いると、推定に大きな系統誤差が生じてしまう可能性もある。

順序統計量の計算

詳細は「選択アルゴリズム」を参照

数列からk番目に小さい（大きい）要素を選択する問題は選択問題と呼ばれ、その解法は選択アルゴリズムと呼ばれる。この問題は数列が巨大であればあるほど難しくなるが、要素の順序が完全に無作為であっても要素数に比例した時間内に答えを求めることができる洗練された選択アルゴリズムが知られている。

脚注

^ JIS Z 8101-1 : 1999, 2.28 順序統計量.
^ JIS Z 8101-1 : 2015, 1.9 順序統計量.

参考文献

西岡康夫『数学チュートリアルやさしく語る確率統計』オーム社、2013年。ISBN 9784274214073。
日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html
JIS Z 8101-1:2015 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (2015)
伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204。

外部リンク

Order statistics - PlanetMath.（英語）
Order Statistic Eric W. Weisstein、MathWorld
Order Statistics Dr. Susan Holmes

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像