Wielowymiarowy rozkład normalny

Dwuwymiarowy rozkład normalny

Wielowymiarowy rozkład normalnyrozkład wielowymiarowej zmiennej losowej, będący uogólnieniem rozkładu normalnego na n wymiarów.

Definicja

n-wymiarowa zmienna losowa X = [ x 1 , , x n ] T {\displaystyle X=[x_{1},\dots ,x_{n}]^{T}} podlega n-wymiarowemu rozkładowi normalnemu jeśli dowolna kombinacja liniowa Y = a 1 x 1 + + a n x n {\displaystyle Y=a_{1}x_{1}+\ldots +a_{n}x_{n}} jej składowych ma rozkład normalny.

Funkcja gęstości n-wymiarowego rozkładu normalnego wektora losowego X {\displaystyle X} o wektorze wartości oczekiwanych μ = [ μ 1 , , μ n ] T {\displaystyle {\boldsymbol {\mu }}=[\mu _{1},\dots ,\mu _{n}]^{T}} i macierzy kowariancji Σ {\displaystyle \Sigma } dana jest wzorem:

f μ , Σ ( X ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 exp ( 1 2 ( X μ ) T Σ 1 ( X μ ) ) . {\displaystyle f_{{\boldsymbol {\mu }},\Sigma }(X)={\frac {1}{(2\pi )^{n/2}\left|\Sigma \right|^{1/2}}}\exp \left(-{\frac {1}{2}}(X-{\boldsymbol {\mu }})^{T}\Sigma ^{-1}(X-{\boldsymbol {\mu }})\right).}

Oznacza się to w skrócie zapisem

X N ( μ , Σ ) . {\displaystyle X\sim N({\boldsymbol {\mu }},\Sigma ).}

Niezależność zmiennych

Dla wielowymiarowego rozkładu normalnego jeśli składowe wektora losowego X {\displaystyle X} o wielowymiarowym rozkładzie normalnym są niezależne to są nieskorelowane i odwrotnie, jeśli są nieskorelowane to są niezależne. Wówczas funkcja gęstości wektora losowego X {\displaystyle X} jest iloczynem funkcji gęstości każdej ze zmiennych:

f μ , Σ ( X ) = i = 1 n f μ i , σ i ( x i ) . {\displaystyle f_{{\boldsymbol {\mu }},\Sigma }(X)=\prod _{i=1}^{n}f_{\mu _{i},\sigma _{i}}(x_{i}).}

Zmienne losowe (nawet nieskorelowane) o rozkładzie normalnym nie muszą razem tworzyć wektora o wielowymiarowym rozkładzie normalnym. Wówczas powyższa zależność nie musi być prawdziwa.

Na przykład niech x N ( 0 , 1 ) , {\displaystyle x\sim N(0,1),} niech w {\displaystyle w} będzie zmienną losową przyjmującą wartości 1 i –1 z równym prawdopodobieństwem 0,5, niezależną od x , {\displaystyle x,} oraz niech y = w x . {\displaystyle y=wx.} Wówczas x {\displaystyle x} i y {\displaystyle y} są nieskorelowane, normalne, ale są zależne. Nie tworzą one jednak wielowymiarowego rozkładu normalnego. Cała masa prawdopodobieństwa ich wspólnego rozkładu znajduje się na prostych y = x , {\displaystyle y=x,} y = x , {\displaystyle y=-x,} podczas gdy nośnikiem wielowymiarowego rozkładu normalnego jest cała płaszczyzna R 2 . {\displaystyle \mathbb {R} ^{2}.} W szczególności zmienna x + y {\displaystyle x+y} ma rozkład mieszany (dyskretno-ciągły), i z prawdopodobieństwem 0,5 przyjmuje wartość 0, a więc nie jest spełniona definicja wielowymiarowego rozkładu normalnego: pewna kombinacja liniowa składowych wektora losowego nie ma rozkładu normalnego.

Estymacja parametrów

Mając dane N {\displaystyle N} wektorów pobranych z pewnego wielowymiarowego rozkładu normalnego o wektorze wartości oczekiwanych μ {\displaystyle {\boldsymbol {\mu }}} i macierzy kowariancji Σ {\displaystyle \Sigma } możemy oszacować jego parametry w następujący sposób:

Estymator wartości oczekiwanej:

μ ^ = 1 N i = 1 N X i . {\displaystyle {\hat {\boldsymbol {\mu }}}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}.}

Estymator macierzy kowariancji o największej wiarygodności:

Σ ^ = 1 N i = 1 N ( X i μ ^ ) ( X i μ ^ ) T . {\displaystyle {\hat {\Sigma }}={\frac {1}{N}}\sum _{i=1}^{N}(X_{i}-{\hat {\boldsymbol {\mu }}})(X_{i}-{\hat {\boldsymbol {\mu }}})^{T}.}

Estymator nieobciążony macierzy kowariancji:

Σ ^ = 1 N 1 i = 1 N ( X i μ ^ ) ( X i μ ^ ) T . {\displaystyle {\hat {\Sigma }}={\frac {1}{N-1}}\sum _{i=1}^{N}(X_{i}-{\hat {\boldsymbol {\mu }}})(X_{i}-{\hat {\boldsymbol {\mu }}})^{T}.}

Symulacja

W celu uzyskania wektora losowego o rozkładzie danym przez wektor średnich μ {\displaystyle {\boldsymbol {\mu }}} i macierz kowariancji Σ , {\displaystyle \Sigma ,} postępujemy według następującego algorytmu:

  1. Stosujemy rozkład Choleskiego względem macierzy Σ , {\displaystyle \Sigma ,} tak by otrzymać macierz A , {\displaystyle A,} dla której zachodzi: A A T = Σ . {\displaystyle AA^{T}=\Sigma .}
  2. Tworzymy wektor Z {\displaystyle Z} n niezależnych zmiennych losowych o standardowym rozkładzie normalnym, stosując np. metodę Boxa-Mullera.
  3. Szukany wektor to X = μ + A Z . {\displaystyle X={\boldsymbol {\mu }}+AZ.}

Zobacz też