順序統計量

順序統計量(じゅんじょとうけいりょう、: order statistic)は、統計において、標本の確率変数を値が小さい順に並べることで得られる統計量である。日本産業規格では、「確率変数を非減少な順序に並べることによって得られる統計量」と定義されている[1][2]ノンパラメトリック統計学における最も基本的ツールである。

順序統計量に属する重要な値として、標本の最小値最大値中央値分位などがある。

連続確率分布での無作為標本の順序統計量を確率論的に分析する場合、一様分布の順序統計量ならば累積分布関数によって分析を簡略化できる。

表記法と例

例えば、4つの数が観測され記録されたとすると、標本の大きさは n = 4 {\displaystyle n=4} となる。各観測値は以下のようであったとする。

6, 9, 3, 8,

通常はこれを次のように表記する。

x 1 = 6 ; x 2 = 9 ; x 3 = 3 ; x 4 = 8 {\displaystyle x_{1}=6;x_{2}=9;x_{3}=3;x_{4}=8}

x i {\displaystyle x_{i}} の添え字 i は単に記録上の順序を表し、通常は重要なものではない。ただし、時系列のデータにおいては順序が重要となる。

順序統計量では次のように表記する。

x ( 1 ) = 3 ; x ( 2 ) = 6 ; x ( 3 ) = 8 ; x ( 4 ) = 9 {\displaystyle x_{(1)}=3;x_{(2)}=6;x_{(3)}=8;x_{(4)}=9}

ここで括弧で囲まれた添え字 (i) は順序統計量における i 番目の値を表す。

順序統計において、第一順序統計量最小順序統計量)は最小値を表し、次のように表される。

X ( 1 ) = min { X 1 , , X n } {\displaystyle X_{(1)}=\min\{X_{1},\dots ,X_{n}\}}

ここで、確率変数を示す一般的な記法として大文字を使用している。小文字は具体的な観測値を指すのに使われる。

同様に大きさ n の標本でn 順序統計量最大順序統計量)は最大値を表し、次のように表される。

X ( n ) = max { X 1 , , X n } . {\displaystyle X_{(n)}=\max\{X_{1},\dots ,X_{n}\}.}

より一般に、順序統計量は

X ( 1 ) X ( 2 ) X ( n ) {\displaystyle X_{(1)}\leq X_{(2)}\leq \dots \leq X_{(n)}}

の関係で与えられる。

観測値の範囲は最大値と最小値の差である。これは明らかに順序統計量の関数となっている。

Range { X 1 , , X n } = X ( n ) X ( 1 ) . {\displaystyle {\text{Range}}\{X_{1},\dots ,X_{n}\}=X_{(n)}-X_{(1)}.}

探索的データ解析での類似の重要な統計量である四分位数は順序統計量に関係している。

標本の中央値(第2四分位点)は順序統計量となる場合もあるし、そうでない場合もある。これのは、標本の大きさ n {\displaystyle n} が奇数であった場合だけ唯一の中央値が存在するからである。正確に言えば、 n = 2 m + 1 {\displaystyle n=2m+1} となる整数 m {\displaystyle m} があるとき、中央値 X ( m + 1 ) {\displaystyle X_{(m+1)}} は順序統計量である。一方、 n {\displaystyle n} が偶数の場合は n = 2 m {\displaystyle n=2m} となるので、中央値の候補は X ( m ) {\displaystyle X_{(m)}} X ( m + 1 ) {\displaystyle X_{(m+1)}} の2つとなり、中央値はこれらの関数(一般に平均)で表されるため、順序統計量とは言えない。同様の注意はあらゆる標本分位点を求める際にも必要となる。

確率的解析

ここでは、標本X1, X2,..., Xn無作為抽出で得られたもので連続確率分布に従うものとし、単純化のために、確率密度関数があるものとする(つまり絶対連続である)。

順序統計量の分布(一般の場合)

いま X1, X2,..., Xn は 無作為抽出での標本であるとする。すなわち、同一分布に従い、互いに独立 である(i.i.d.)とする。さらに、これらは連続分布を持つ確率変数であり、f (x) がその確率密度関数F (x) が累積分布関数とする。また、これらを小さい順に並べた順序統計量をX(1), X(2),..., X(n) とする。この時、k 番目の順序統計量X(k)の累積分布関数は次式で与えられる。

F X ( k ) ( x ) = j = k n ( n j ) F ( x ) j ( 1 F ( x ) ) n j {\displaystyle F_{X_{(k)}}(x)=\sum _{j=k}^{n}{\binom {n}{j}}F(x)^{j}(1-F(x))^{n-j}}

また、その確率密度関数は

f X ( k ) ( x ) = n ! ( k 1 ) ! ( n k ) ! F ( x ) k 1 ( 1 F ( x ) ) n k f ( x ) {\displaystyle f_{X_{(k)}}(x)={\frac {n!}{(k-1)!(n-k)!}}F(x)^{k-1}(1-F(x))^{n-k}f(x)}

となる。

特に最小値 X ( 1 ) {\displaystyle X_{(1)}} 、最大値 X ( n ) {\displaystyle X_{(n)}} については、

F X ( 1 ) ( x ) = 1 { 1 F ( x ) } n F X ( n ) ( x ) = { F ( x ) } n {\displaystyle {\begin{aligned}F_{X_{(1)}}(x)&=1-\{1-F(x)\}^{n}\\F_{X_{(n)}}(x)&=\{F(x)\}^{n}\end{aligned}}}

となる。

導出の詳細

累積分布関数 F X ( k ) ( x ) = P ( X ( k ) x ) {\displaystyle F_{X_{(k)}}(x)=P\left(X_{(k)}\leq x\right)} において、確率値P( ) 内の事象は『n 個中少なくとも k 個の Xix 以下』 = 『x 以下の値がn 回の試行中 k 回以上発生する』を意味することから

F X ( k ) ( x ) = j = k n ( n j ) P ( X x ) j ( 1 P ( X x ) ) n j = j = k n ( n j ) F ( x ) j ( 1 F ( x ) ) n j {\displaystyle {\begin{aligned}F_{X_{(k)}}(x)&=\sum _{j=k}^{n}{\binom {n}{j}}P(X\leq x)^{j}(1-P(X\leq x))^{n-j}\\&=\sum _{j=k}^{n}{\binom {n}{j}}F(x)^{j}(1-F(x))^{n-j}\end{aligned}}}

が成り立つ。

確率密度関数と累積分布関数の関係に注意すれば、

f X ( k ) ( x ) = d d x F X ( k ) ( x ) = d d x j = k n ( n j ) F ( x ) j ( 1 F ( x ) ) n j = n f ( x ) ( j = k 1 n 1 ( n 1 j ) F ( x ) j ( 1 F ( x ) ) ( n 1 ) j j = k n ( n 1 j ) F ( x ) j ( 1 F ( x ) ) ( n 1 ) j ) {\displaystyle {\begin{aligned}f_{X_{(k)}}(x)&={\frac {d}{dx}}F_{X_{(k)}}(x)\\&={\frac {d}{dx}}\sum _{j=k}^{n}{\binom {n}{j}}F(x)^{j}(1-F(x))^{n-j}\\&=nf(x)\left(\sum _{j=k-1}^{n-1}{\binom {n-1}{j}}F(x)^{j}(1-F(x))^{(n-1)-j}-\sum _{j=k}^{n}{\binom {n-1}{j}}F(x)^{j}(1-F(x))^{(n-1)-j}\right)\end{aligned}}}

となる。上記の畳み込み級数の総和は、最初と最後の項以外は全て相殺されるため

= n f ( x ) ( ( n 1 k 1 ) F ( x ) k 1 ( 1 F ( x ) ) ( n 1 ) ( k 1 ) ( n 1 n ) F ( x ) n ( 1 F ( x ) ) ( n 1 ) n ) {\displaystyle =nf(x)\left({\binom {n-1}{k-1}}F(x)^{k-1}(1-F(x))^{(n-1)-(k-1)}-{n-1 \choose n}F(x)^{n}(1-F(x))^{(n-1)-n}\right)}

となる。さらに第二項はゼロとなるから

= n f ( x ) ( n 1 k 1 ) F ( x ) k 1 ( 1 F ( x ) ) ( n 1 ) ( k 1 ) = n ! ( k 1 ) ! ( n k ) ! F ( x ) k 1 ( 1 F ( x ) ) n k f ( x ) . {\displaystyle {\begin{aligned}&=nf(x){\binom {n-1}{k-1}}F(x)^{k-1}(1-F(x))^{(n-1)-(k-1)}\\&={\frac {n!}{(k-1)!(n-k)!}}F(x)^{k-1}(1-F(x))^{n-k}f(x).\end{aligned}}}

を得る。

順序統計量の分布(一様分布での例)

この節では、特に単位区間上の一様分布からの順序統計量を考え、それがベータ分布族に属する周辺分布を持つことを示す。また、任意個の順序統計量の同時分布を求め、累積分布関数を用いて任意の連続型分布のケースに一般化する簡単な方法を示す。

なお、 X1, X2,..., Xn が、累積分布関数 FX を持つ連続型分布から得られた無作為標本とすると、 Ui = FX(Xi) と置くことによって、標準一様分布にしたがう無作為標本 U1,..., Un が得られることに注意する。また、対応する順序統計量X(1), X(2),..., X(n)においても、U(i) = FX(X(i)) が成り立つことに注意する。

一様分布の順序統計量

標準一様分布からのk番目の順序統計量 U(k) が [u, u + du] の範囲に落ちる確率は

n ! ( k 1 ) ! ( n k ) ! u k 1 ( 1 u ) n k d u + O ( d u 2 ) {\displaystyle {n! \over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}du+O(du^{2})}

に等しい。よって、 U(k)の確率密度関数は、

f U ( k ) ( u ) = n ! ( k 1 ) ! ( n k ) ! u k 1 ( 1 u ) n k = 1 B ( k , n k + 1 ) u k 1 ( 1 u ) n k {\displaystyle f_{U_{(k)}}(u)={n! \over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}={1 \over B(k,n-k+1)}u^{k-1}(1-u)^{n-k}}

で与えられる。ここで、B (k, n-k+1 )はベータ関数を表す。したがって、U(k)ベータ分布に従う確率変数

U ( k ) B ( k , n + 1 k ) {\displaystyle U_{(k)}\sim B(k,n+1-k)}

となる。

導出の詳細

証明は以下の通り。U(k)uu + du の間にあるためには、標本中の k − 1 個の要素が u より小さく、かつ少なくとも 1 個の要素が uu + du の間にあることが必要である。複数の要素が後者の範囲にある確率は O (du2) となるため、求める確率は、k − 1 個の観測値が (0, u) に、1 個が (u , u +du) に、n − k 個が (u +du, 1) に落ちる場合に相当する。つまり、その確率は

n ! ( k 1 ) ! 1 ! ( n k ) ! u k d u ( 1 u d u ) n k {\displaystyle {n! \over (k-1)!1!(n-k)!}u^{k}\cdot du\cdot (1-u-du)^{n-k}}

に等しい(詳しくは多項分布参照)。

一様分布での順序統計量の同時確率

同様に、i < j であるとき、2つの順序統計量 Ui < Uj の同時確率密度関数は次のようになることが示せる。

f U ( i ) , U ( j ) ( u , v )   d u   d v = n ! u i 1 ( i 1 ) ! ( v u ) j i 1 ( j i 1 ) ! ( 1 v ) n j ( n j ) !   d u   d v {\displaystyle f_{U_{(i)},U_{(j)}}(u,v)~du~dv=n!{\frac {u^{i-1}}{(i-1)!}}{\frac {(v-u)^{j-i-1}}{(j-i-1)!}}{\frac {(1-v)^{n-j}}{(n-j)!}}~du~dv}

これは(O (du dv) までの項において)、区間 (0, u), (u, u + du), (u + du, v), (v, v + dv), (v + dv, 1) に落ちる標本要素の数が、各々 i − 1, 1, j − 1 − i, 1, n − j 個となる確率に等しい。

同様にして、より高次の同時分布も導くことができる。おそらく意外なことに、n 次の同時分布は次のような定数になる:

f U ( 1 ) , U ( 2 ) , , U ( n ) ( u 1 , u 2 , , u n )   d u 1 d u n = n !   d u 1 d u n . {\displaystyle f_{U_{(1)},U_{(2)},\dots ,U_{(n)}}(u_{1},u_{2},\dots ,u_{n})~du_{1}\dotsb du_{n}=n!~du_{1}\dotsb du_{n}.}

この一つの解釈として、「順序のない標本は確率密度 1 を持ち、同じ順序統計量の列に対応する n! 個の異なる順列を持つ標本が存在する」ことが考えられる。これは、領域 0< u1 < … < un < 1 の体積が 1 / n! に等しいことと関係がある。

一般の場合での順序統計量の同時確率

一様分布での結果の応用として、一般の分布の n 個の標本抽出における k 個目の順序統計量 X(k) の分布を考える。X(k) の累積分布関数 FX(k) に対し、 fX(k)が対応する確率密度関数とする。このとき、一様分布への変数変換

U ( k ) = F X ( k ) ( x ) {\displaystyle U_{(k)}=F_{X(k)}(x)}

を行い、fX(k) に前述の一様分布におけるfU(k) (u) の結果を代入すれば、次の確率密度関数が導かれる。

f X ( k ) ( x )   d x = n ! ( k 1 ) ! ( n k ) ! [ F X ( x ) ] k 1 [ 1 F X ( x ) ] n k f X ( x )   d x {\displaystyle f_{X_{(k)}}(x)~dx={\frac {n!}{(k-1)!(n-k)!}}[F_{X}(x)]^{k-1}[1-F_{X}(x)]^{n-k}f_{X}(x)~dx}

同様に2つの累積分布関数 FX(j)FX(k) に対し、 fX(j)fX(k)が対応する確率密度関数とする。このとき、一様分布への変数変換

U ( j ) = F X ( j ) ( x ) , U ( k ) = F X ( k ) ( y ) {\displaystyle U_{(j)}=F_{X(j)}(x),\quad U_{(k)}=F_{X(k)}(y)}

を行い、fX(i),X(j)に先ほどの一様分布における同時確率分布fU(i),U(j)(u, v)の結果を代入すれば、次式を得る。

f X ( j ) , X ( k ) ( x , y )   d x   d y = n ! [ F X ( x ) ] j 1 ( j 1 ) ! [ F X ( y ) F X ( x ) ] k 1 j ( k 1 j ) ! [ 1 F X ( y ) ] n k ( n k ) ! f X ( x ) f X ( y )   d x   d y {\displaystyle f_{X_{(j)},X_{(k)}}(x,y)~dx~dy=n!{\frac {[F_{X}(x)]^{j-1}}{(j-1)!}}{\frac {[F_{X}(y)-F_{X}(x)]^{k-1-j}}{(k-1-j)!}}{\frac {[1-F_{X}(y)]^{n-k}}{(n-k)!}}f_{X}(x)f_{X}(y)~dx~dy}

同様に高次の場合について考えれば、次式を得る。

f X ( 1 ) , , X ( n ) ( x 1 , , x n )   d x 1 d x n = n ! f X ( x 1 ) f X ( x n )   d x 1 d x n {\displaystyle f_{X_{(1)},\dots ,X_{(n)}}(x_{1},\dots ,x_{n})~dx_{1}\dotsb dx_{n}=n!f_{X}(x_{1})\dotsb f_{X}(x_{n})~dx_{1}\dotsb dx_{n}}

但し、x1 < x2 < … < xnとする。

応用: 分位の信頼区間

中央値の推定

以下では、標本中央値によって母集団中央値がどの程度良く推定できるかを、最も単純なケースで考える。

小標本の例

例として、サイズ 6 の無作為標本を考える。この場合の標本中央値は、通常、3 番目と 4 番目の順序統計量で区切られた区間の中点として定義される。しかしこれまでの議論から、この区間が実際に母集団中央値を含む確率は次のようになる:

( 6 3 ) 2 6 = 5 16 31 % {\displaystyle {6 \choose 3}2^{-6}={5 \over 16}\approx 31\%}

標本中央値は母集団中央値のおそらく分布に依存しない最良の点推定であるが、この例は、標本中央値が絶対的な意味で優れているわけではないことを表している。母集団中央値のより良い信頼区間は、この例の場合、2 番目と 5 番目の順序統計量で囲まれた区間であり、母集団中央値を含む確率は次のようになる:

[ ( 6 2 ) + ( 6 3 ) + ( 6 4 ) ] 2 6 = 25 32 78 % {\displaystyle \left[{6 \choose 2}+{6 \choose 3}+{6 \choose 4}\right]2^{-6}={25 \over 32}\approx 78\%}

このように小さな標本サイズでは、もしも少なくとも 95% の信頼度が欲しければ、確率 31/32 つまり約 97% で 6 個の観測値の最小値と最大値の間にある、と表現することになってしまう。サイズ 6 は、最小値と最大値で決まる区間が、少なくとも 95% 信頼区間になるような最小の標本サイズである。

もしも分布が対称であることがわかっていて、分散が有限ならば(例えば正規分布のような場合)、母集団の平均値は中央値に等しく、標本平均値は標本中央値よりもかなり良い信頼区間を持つ。これは、分布に依存しない統計的方法の相対的弱点を表している。他方において、もしも間違った分布に立脚した方法を用いると、推定に大きな系統誤差が生じてしまう可能性もある。

順序統計量の計算

詳細は「選択アルゴリズム」を参照

数列からk番目に小さい(大きい)要素を選択する問題は選択問題と呼ばれ、その解法は選択アルゴリズムと呼ばれる。この問題は数列が巨大であればあるほど難しくなるが、要素の順序が完全に無作為であっても要素数に比例した時間内に答えを求めることができる洗練された選択アルゴリズムが知られている。

脚注

  1. ^ JIS Z 8101-1 : 1999, 2.28 順序統計量.
  2. ^ JIS Z 8101-1 : 2015, 1.9 順序統計量.

参考文献

  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。 
  • 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。 
  • JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html 
  • JIS Z 8101-1:2015 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (2015) 
  • 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204 

関連項目

外部リンク

  • Order statistics - PlanetMath.(英語)
  • Order Statistic Eric W. Weisstein、MathWorld
  • Order Statistics Dr. Susan Holmes
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ