Rozkład Studenta

Rozkład Studenta, rozkład t Studenta
Gęstość prawdopodobieństwa
Ilustracja
Dystrybuanta
Ilustracja
Parametry

ν > 0 {\displaystyle \nu >0} stopni swobody (liczba rzeczywista)

Nośnik

x ( ; + ) {\displaystyle x\in (-\infty ;+\infty )}

Gęstość prawdopodobieństwa

Γ ( ν + 1 2 ) ν π Γ ( ν 2 ) ( 1 + x 2 ν ) ( ν + 1 2 ) {\displaystyle {\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}\left(1+{\frac {x^{2}}{\nu }}\right)^{-({\frac {\nu +1}{2}})}}

Dystrybuanta

1 2 + x Γ ( ν + 1 2 ) 2 F 1 ( 1 2 , ν + 1 2 ; 3 2 ; x 2 ν ) π ν Γ ( ν 2 ) {\displaystyle {\begin{matrix}{\frac {1}{2}}+x\Gamma \left({\frac {\nu +1}{2}}\right)\cdot \\[0.5em]{\frac {\,_{2}F_{1}\left({\frac {1}{2}},{\frac {\nu +1}{2}};{\frac {3}{2}};-{\frac {x^{2}}{\nu }}\right)}{{\sqrt {\pi \nu }}\,\Gamma ({\frac {\nu }{2}})}}\end{matrix}}}
gdzie 2 F 1 {\displaystyle _{2}F_{1}} jest funkcją hipergeometryczną

Wartość oczekiwana (średnia)

0  dla  ν > 1 , {\displaystyle 0{\text{ dla }}\nu >1,} w przeciwnym wypadku nieokreślona

Mediana

0 {\displaystyle 0}

Moda

0 {\displaystyle 0}

Wariancja

ν ν 2  dla  ν > 2 , {\displaystyle {\frac {\nu }{\nu -2}}{\text{ dla }}\nu >2,} w przeciwnym wypadku nieokreślona

Współczynnik skośności

0  dla  ν > 3 {\displaystyle 0{\text{ dla }}\nu >3}

Kurtoza

6 ν 4  dla  ν > 4 {\displaystyle {\frac {6}{\nu -4}}{\text{ dla }}\nu >4}

Entropia

ν + 1 2 [ ψ ( 1 + ν 2 ) ψ ( ν 2 ) ] + ln [ ν B ( ν 2 , 1 2 ) ] {\displaystyle {\begin{matrix}{\frac {\nu +1}{2}}\left[\psi ({\frac {1+\nu }{2}})-\psi ({\frac {\nu }{2}})\right]\\[0.5em]+\ln {\left[{\sqrt {\nu }}B({\frac {\nu }{2}},{\frac {1}{2}})\right]}\end{matrix}}}

  • ψ : {\displaystyle \psi {:}} funkcja digamma
  • B : {\displaystyle B{:}} funkcja beta
Funkcja tworząca momenty

(nieokreślona)

Odkrywca

William Sealy Gosset (1908)

Zobacz w Wikiźródłach tablicę rozkładu Studenta

Rozkład Studenta, rozkład t Studenta, rozkład tciągły rozkład prawdopodobieństwa stosowany często w statystyce w procedurach testowania hipotez statystycznych i przy ocenie niepewności pomiaru. Przy opracowaniu wyników pomiarów często powstaje zagadnienie oszacowania przedziału, w którym leży, z określonym prawdopodobieństwem, rzeczywista wartość mierzona, jeśli dysponujemy tylko wynikami n pomiarów, dla których możemy wyznaczyć takie parametry, jak średnia X ¯ {\displaystyle {\overline {X}}} i odchylenie standardowe s {\displaystyle s} lub wariancja s 2 {\displaystyle s^{2}} („z próby”), nie znamy natomiast odchylenia standardowego σ {\displaystyle \sigma } w populacji. Zagadnienie to rozwiązał w 1908 r. William Sealy Gosset (pseudonim Student) podając funkcję zależną od wyników pomiarów X i , {\displaystyle X_{i},} a niezależną od σ . {\displaystyle \sigma .}

Definicja

Rozkład Studenta z n {\displaystyle n} stopniami swobody jest rozkładem zmiennej losowej T {\displaystyle T} postaci:

T = U Z n {\displaystyle T={\frac {U}{\sqrt {Z}}}{\sqrt {n}}}

gdzie:

  • U {\displaystyle U} jest zmienną losową mającą standardowy rozkład normalny N ( 0 , 1 ) {\displaystyle N(0,1)}
  • Z {\displaystyle Z} jest zmienną losową o rozkładzie chi kwadrat o n {\displaystyle n} stopniach swobody
  • U {\displaystyle U} i Z {\displaystyle Z} niezależne.

Gęstość prawdopodobieństwa

Zmienna losowa T {\displaystyle T} określona powyżej ma gęstość prawdopodobieństwa opisaną wzorem:

f ( t , n ) = Γ ( n + 1 2 ) Γ ( n 2 ) n π ( 1 + t 2 n ) n + 1 2 {\displaystyle f(t,n)={\frac {\Gamma ({\frac {n+1}{2}})}{\Gamma ({\frac {n}{2}}){\sqrt {n\pi }}}}\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {n+1}{2}}}}

gdzie Γ ( x ) {\displaystyle \Gamma (x)} to funkcja gamma.

Dowód. Niech U {\displaystyle U} i Z {\displaystyle Z} będą takie jak wyżej. Zmienna Y = Z {\displaystyle Y={\sqrt {Z}}} ma rozkład chi o n {\displaystyle n} stopniach swobody, a więc gęstość Y {\displaystyle Y} wyraża się wzorem

f Y ( y ) = 2 1 n 2 y n 1 e y 2 2 Γ ( n 2 ) . {\displaystyle f_{Y}(y)={\frac {2^{1-{\frac {n}{2}}}y^{n-1}e^{-{\frac {y^{2}}{2}}}}{\Gamma ({\frac {n}{2}})}}.}

Rozważmy zmienną

X = 1 n Y . {\displaystyle X={\frac {1}{\sqrt {n}}}Y.}

Wówczas

Y X = n {\displaystyle {\frac {\partial Y}{\partial X}}={\sqrt {n}}}

a zatem całkując przez podstawienie obserwujemy, że

f X ( x ) = f Y ( n x ) | Y X | = 2 1 n 2 Γ ( n 2 ) ( n x ) n 1 e ( n x ) 2 2 n = 2 1 n 2 Γ ( n 2 ) n n 2 x n 1 e n 2 x 2 . {\displaystyle {\begin{aligned}f_{X}(x)&=f_{Y}({\sqrt {n}}x){\Big |}{\frac {\partial Y}{\partial X}}{\Big |}\\&={\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}({\sqrt {n}}x)^{n-1}e^{-{\frac {({\sqrt {n}}x)^{2}}{2}}}{\sqrt {n}}\\&={\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}n^{\frac {n}{2}}x^{n-1}e^{-{\frac {n}{2}}x^{2}}.\end{aligned}}}

Zmienna T {\displaystyle T} ma zatem rozkład U / X . {\displaystyle U/X.} Jej gęstość jest więc postaci

f T ( t ) = | x | f U ( x t ) f X ( x ) d x = 0 x f U ( x t ) f X ( x ) d x = 0 x 1 2 π e ( x t ) 2 2 2 1 n 2 Γ ( n 2 ) n n 2 x n 1 e n 2 x 2 d x = n n 2 2 π 2 1 n 2 Γ ( n 2 ) 0 x n e 1 2 ( n + t 2 ) x 2 d x . {\displaystyle {\begin{aligned}f_{T}(t)&=\int \limits _{-\infty }^{\infty }|x|f_{U}(xt)f_{X}(x)\,\mathrm {d} x=\int \limits _{0}^{\infty }xf_{U}(xt)f_{X}(x)\,\mathrm {d} x\\&=\int \limits _{0}^{\infty }x{\frac {1}{\sqrt {2\pi }}}e^{-{\frac {(xt)^{2}}{2}}}{\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}n^{\frac {n}{2}}x^{n-1}e^{-{\frac {n}{2}}x^{2}}\,\mathrm {d} x\\&={\frac {n^{\frac {n}{2}}}{\sqrt {2\pi }}}{\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}\int \limits _{0}^{\infty }x^{n}e^{-{\frac {1}{2}}(n+t^{2})x^{2}}\,\mathrm {d} x.\end{aligned}}}

Niech m = x 2 . {\displaystyle m=x^{2}.} Wówczas powyższa całka przyjmuje postać

0 x n e 1 2 ( n + t 2 ) m d m 2 x = 1 2 0 m n 1 2 e 1 2 ( n + t 2 ) m d m ( ) . {\displaystyle \int \limits _{0}^{\infty }x^{n}e^{-{\frac {1}{2}}(n+t^{2})m}{\frac {\mathrm {d} m}{2x}}={\frac {1}{2}}\int \limits _{0}^{\infty }m^{\frac {n-1}{2}}e^{-{\frac {1}{2}}(n+t^{2})m}\mathrm {d} m\qquad (*).}

Gęstość f ( m ; k , θ ) {\displaystyle f(m;k,\theta )} rozkładu gamma wyraża się wzorem

f ( m ; k , θ ) = m k 1 e m θ θ k Γ ( k ) . {\displaystyle f(m;k,\theta )={\frac {m^{k-1}e^{-{\frac {m}{\theta }}}}{\theta ^{k}\Gamma (k)}}.}

Oznacza to, że

k 1 = n 1 2 k = n + 1 2 , 1 θ = 1 2 ( n + t 2 ) θ = 2 ( n + t 2 ) {\displaystyle k-1={\frac {n-1}{2}}\Rightarrow k^{*}={\frac {n+1}{2}},\qquad {\frac {1}{\theta }}={\frac {1}{2}}(n+t^{2})\Rightarrow \theta ^{*}={\frac {2}{(n+t^{2})}}}

a stąd

( ) = 1 2 ( θ ) k Γ ( k ) = 1 2 ( 2 n + t 2 ) n + 1 2 Γ ( n + 1 2 ) = 2 n 1 2 n n + 1 2 Γ ( n + 1 2 ) ( 1 + t 2 n ) 1 2 ( n + 1 ) . {\displaystyle (*)={\frac {1}{2}}(\theta ^{*})^{k^{*}}\Gamma (k^{*})={\frac {1}{2}}{\Big (}{\frac {2}{n+t^{2}}}{\Big )}^{\frac {n+1}{2}}\Gamma \left({\frac {n+1}{2}}\right)=2^{\frac {n-1}{2}}n^{-{\frac {n+1}{2}}}\Gamma \left({\frac {n+1}{2}}\right)\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {1}{2}}(n+1)}.}

Ostatecznie

f T ( t ) = 1 2 π 2 1 n 2 Γ ( n 2 ) n n 2 2 n 1 2 n n + 1 2 Γ ( n + 1 2 ) ( 1 + t 2 n ) 1 2 ( n + 1 ) = Γ [ ( n + 1 ) / 2 ] n π Γ ( n / 2 ) ( 1 + t 2 n ) 1 2 ( n + 1 ) . {\displaystyle f_{T}(t)={\frac {1}{\sqrt {2\pi }}}{\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}n^{\frac {n}{2}}2^{\frac {n-1}{2}}n^{-{\frac {n+1}{2}}}\Gamma \left({\frac {n+1}{2}}\right)\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {1}{2}}(n+1)}={\frac {\Gamma [(n+1)/2]}{{\sqrt {n\pi }}\Gamma (n/2)}}\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {1}{2}}(n+1)}.}

Własności

Powyższy wzór określa całą rodzinę rozkładów prawdopodobieństwa zależną od parametru n {\displaystyle n} – liczby stopni swobody rozkładu Studenta. Rozkłady te są symetryczne, jednomodalne, dla dużych wartości n {\displaystyle n} zmierzają do standardowego rozkładu normalnego N ( 0 , 1 ) . {\displaystyle N(0,1).} Dla małych n {\displaystyle n} różnią się jednak od rozkładu normalnego: rozkład Studenta o n {\displaystyle n} stopniach swobody ma skończone momenty tylko do rzędu n 1 , {\displaystyle n-1,} w szczególności dla n = 1 {\displaystyle n=1} rozkład Studenta jest identyczny z rozkładem Cauchy’ego i nie posiada żadnych skończonych momentów (nie istnieje nawet wartość średnia).

Własności te ilustruje poniższy wykres przedstawiający gęstości rozkładu Studenta dla kilku wartości liczby stopni swobody n {\displaystyle n} w zestawieniu z gęstością standardowego rozkładu normalnego N ( 0 , 1 ) . {\displaystyle N(0,1).}

rozkłady Studenta porównane z rozkładem normalnym
rozkłady Studenta porównane z rozkładem normalnym

Zastosowania

Zastosowania rozkładu Studenta w metrologii i statystyce opierają się w większości na następujących dwóch twierdzeniach:

  1. Niech zmienne losowe X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} mają jednakowy rozkład prawdopodobieństwa, który jest rozkładem normalnym o średniej m {\displaystyle m} i wariancji σ 2 {\displaystyle \sigma ^{2}} oraz niech zmienna t {\displaystyle t} będzie określona wzorem:
    t = X ¯ m s n {\displaystyle t={\frac {{\overline {X}}-m}{s}}\cdot {\sqrt {n}}}
    gdzie X ¯ {\displaystyle {\overline {X}}} jest wartością średnią z próby, zaś s {\displaystyle s} odchyleniem standardowym z próby.
    Wówczas zmienna t {\displaystyle t} ma rozkład Studenta o ν = n 1 {\displaystyle \nu =n-1} stopniach swobody (niezależny od wartości wariancji w populacji σ 2 {\displaystyle \sigma ^{2}} ).
  2. Jeżeli dwie próby o liczebnościach n 1 {\displaystyle n_{1}} oraz n 2 , {\displaystyle n_{2},} wartościach średnich X ¯ 1 {\displaystyle {\overline {X}}_{1}} oraz X ¯ 2 {\displaystyle {\overline {X}}_{2}} i wariancjach wyznaczonych z próby s 1 2 {\displaystyle s_{1}^{2}} oraz s 2 2 {\displaystyle s_{2}^{2}} zostały wylosowane z populacji mających taki sam rozkład normalny, to zmienna t {\displaystyle t} określona wzorem:
    t = X ¯ 1 X ¯ 2 n 1 s 1 2 + n 2 s 2 2 n 1 n 2 n 1 + n 2 ( n 1 + n 2 2 ) {\displaystyle t={\frac {{\overline {X}}_{1}-{\overline {X}}_{2}}{\sqrt {n_{1}s_{1}^{2}+n_{2}s_{2}^{2}}}}{\sqrt {{\frac {n_{1}n_{2}}{n_{1}+n_{2}}}(n_{1}+n_{2}-2)}}}
    ma rozkład Studenta o ν = n 1 + n 2 2 {\displaystyle \nu =n_{1}+n_{2}-2} stopniach swobody.

Rozkład t jest stosowany w estymacji przedziałowej, w testach parametrycznych, w szczególności dla wartości średnich i dla wariancji oraz w testach istotności parametrów statystycznych – gdy mamy do czynienia z próbami małymi (najczęściej arbitralnie przyjmuje się, że próba jest mała gdy jej liczebność n 30 {\displaystyle n\leqslant 30} ).

W metrologii rozkład Studenta wykorzystywany jest m.in. przy estymacji odchylenia standardowego (dla pojedynczego pomiaru oraz wartości oczekiwanej). Dla dużych prób (n > 30) praktycznie pokrywa się z rozkładem normalnym, dla mniejszych estymator odchylenia należy pomnożyć przez wartość krytyczną rozkładu Studenta dla liczby stopni swobody ν = n 1 {\displaystyle \nu =n-1} i przyjętego poziomu istotności α . {\displaystyle \alpha .}

Najczęściej potrzebne są w zastosowaniach kwantyle rozkładu Studenta, to znaczy takie wartości t α , {\displaystyle t_{\alpha },} że P ( t > t α ) = α {\displaystyle P(t>t_{\alpha })=\alpha } lub P ( | t | < t α ) = α . {\displaystyle P(|t|<t_{\alpha })=\alpha .} Wartości te podają tablice rozkładu Studenta.

Bibliografia

  • Zieliński R., Tablice statystyczne, PWN, Warszawa 1972.

Linki zewnętrzne

  • VassarStats. vassarstats.net. [zarchiwizowane z tego adresu (2016-03-04)]. Wykresy gęstości, wartości krytyczne i in. obliczane dla podanej przez użytkownika liczby stopni swobody.
  • Earliest Known Uses of Some of the Words of Mathematics (S). [dostęp 2009-05-27]. (ang.). (O historii terminu „Rozkład Studenta”)
  • Distribution Calculator Kalkulator obliczający prawdopodobieństwa i wartości krytyczne dla rozkładu normalnego, Studenta, chi-kwadrat oraz F
  • Kalkulator rozkładu – polski kalkulator online szacujący wartość statystyki t Studenta dla zadanej liczby stopni swobody
  • Tablice podstawowych rozkładów rachunku prawdopodobieństwa
Encyklopedia internetowa (ciągły rozkład prawdopodobieństwa):