Weryfikacja hipotez statystycznych

Ten artykuł dotyczy hipotez statystycznych. Zobacz też: inne znaczenia hasła weryfikacja.

Weryfikacja hipotez statystycznych – sprawdzanie sądów o populacji przez badanie jej wycinka (próby statystycznej). Wyróżnia się kilka podejść do problemu weryfikacji hipotez, między innymi:

  • wnioskowanie częstościowe, z użyciem P-wartości – służące kontroli błędów decyzyjnych (w szczególności: błędu I i błędu II rodzaju), tak aby w długim horyzoncie czasowym spodziewać się, że nie popełnimy ich częściej, niż założyliśmy (według przyjętego poziomu istotności, np. w 5% przypadków),
  • iloraz wiarygodności – służące do rozstrzygnięcia, w jakiej proporcji dane świadczą na rzecz dwóch porównywanych hipotez,
  • wnioskowanie bayesowskie, z użyciem czynnika Bayesa – służące do wyrażenia subiektywnej pewności, jaką można, na podstawie danych i wcześniejszych oczekiwań, przypisać danej hipotezie.

Ze względów historycznych w naukach empirycznych najczęściej spotyka się obecnie metody częstościowe[1]. Wiążą się one z szeregiem specyficznych problemów interpretacyjnych[2], jednak każde z podejść charakteryzują swoiste problemy i ryzyko niezrozumienia oraz nadużyć.

Podejście częstościowe

Definicje

Niech

P = { P θ : θ Θ } . {\displaystyle {\mathcal {P}}=\{P_{\theta }\colon \theta \in \Theta \}.}

będzie rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X , {\displaystyle {\mathcal {X}},} indeksowaną parametrem θ {\displaystyle \theta } (w szczególności może to być wektor parametrów rzeczywistych). P θ {\displaystyle P_{\theta }} opisuje wielowymiarowy łączny rozkład wszystkich obserwacji w próbie X . {\displaystyle X.}

Hipotezą statystyczną H {\displaystyle H} jest zdanie postaci θ Θ 0 {\displaystyle \theta \in \Theta _{0}} gdzie Θ 0 Θ {\displaystyle \Theta _{0}\subset \Theta } koduje własność rozkładu, którą chcemy testować.

Problem weryfikacji hipotezy statystycznej polega na takim podziale przestrzeni próby X {\displaystyle {\mathcal {X}}} na rozłączne zbiory K {\displaystyle \mathbf {K} } i A , {\displaystyle \mathbf {A} ,} żeby prawdopodobieństwo warunkowe hipotezy P { θ Θ 0 } {\displaystyle P\{\theta \in \Theta _{0}\}} było możliwie małe (w pewnym ustalonym sensie) dla X K {\displaystyle X\in \mathbf {K} } i możliwie duże dla X A . {\displaystyle X\in \mathbf {A} .}

Zwykle wybiera się pewną statystykę T {\displaystyle T} i buduje zbiór

K = { X X : T ( X ) K T } , {\displaystyle \mathbf {K} =\{X\in {\mathcal {X}}\colon T(X)\in \mathbf {K} _{T}\},}

gdzie:

K T {\displaystyle \mathbf {K} _{T}} jest tzw. obszarem krytycznym testu, wybranym tak, aby P { T ( X ) K T | H } α {\displaystyle P\{T(X)\in \mathbf {K} _{T}|H\}\leqslant \alpha }
α {\displaystyle \alpha } jest wybranym prawdopodobieństwem, tzw. poziomem istotności testu, zwykle 0,05 lub 0,01.

Jednostronny obszar krytyczny to obszar postaci K T = { t : t t α } , {\displaystyle \mathbf {K} _{T}=\{t\colon t\leqslant t_{\alpha }\},} gdzie

t α {\displaystyle t_{\alpha }} jest tzw. wartością krytyczną testu. Jest to największa liczba, dla której P { T ( X ) t α | H } α {\displaystyle P\{T(X)\leqslant t_{\alpha }|H\}\leqslant \alpha }

Dwustronny obszar krytyczny to obszar postaci K T = { t : t t α 1 t t α 2 } {\displaystyle \mathbf {K} _{T}=\{t\colon t\leqslant t_{\alpha 1}\vee t\geqslant t_{\alpha 2}\}} gdzie

t α 1 {\displaystyle t_{\alpha 1}} jest największą liczbą dla której P { T ( X ) t α 1 | H } α 2 {\displaystyle P\{T(X)\leqslant t_{\alpha 1}|H\}\leqslant {\tfrac {\alpha }{2}}}
t α 2 {\displaystyle t_{\alpha 2}} jest najmniejszą liczbą dla której P { T ( X ) t α 2 | H } α 2 {\displaystyle P\{T(X)\geqslant t_{\alpha 2}|H\}\leqslant {\tfrac {\alpha }{2}}}

Standardowy przebieg procedury weryfikacyjnej

Sformułowanie hipotezy zerowej i alternatywnej

Hipoteza zerowa ( H 0 ) {\displaystyle (H_{0})} – jest to hipoteza poddana procedurze weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero. Przykładowo wnioskując o parametrach hipotezę zerową zapiszemy jako:

H 0 : θ 1 = θ 2 . {\displaystyle H_{0}\colon \theta _{1}=\theta _{2}.}

Hipoteza alternatywna ( H 1 ) {\displaystyle (H_{1})} – hipoteza przeciwstawna do weryfikowanej. Możemy ją zapisać na trzy sposoby w zależności od sformułowania badanego problemu:

H 1 : θ 1 θ 2 , {\displaystyle H_{1}\colon \theta _{1}\neq \theta _{2},}
H 1 : θ 1 > θ 2 , {\displaystyle H_{1}\colon \theta _{1}>\theta _{2},}
H 1 : θ 1 < θ 2 . {\displaystyle H_{1}\colon \theta _{1}<\theta _{2}.}

Wybór statystyki testowej

Budujemy pewną statystykę W, która jest funkcją wyników z próby losowej W = f ( x 1 , x 2 , , x n ) {\displaystyle W=f(x_{1},x_{2},\dots ,x_{n})} i wyznaczamy jej rozkład przy założeniu, że hipoteza zerowa jest prawdziwa. Funkcję W nazywa się statystyką testową lub funkcją testową.

Określenie poziomu istotności α {\displaystyle \alpha }

Na tym etapie procedury weryfikacyjnej przyjmujemy maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju, który polega na odrzuceniu hipotezy zerowej wtedy, gdy jest ona prawdziwa. Prawdopodobieństwo to jest oznaczane symbolem α {\displaystyle \alpha } i nazywane poziomem istotności. Na ogół przyjmujemy prawdopodobieństwo bliskie zeru, ponieważ chcemy, aby ryzyko popełnienia błędu było jak najmniejsze. Najczęściej zakładamy poziom istotności α = 0 , 05 , {\displaystyle \alpha =0{,}05,} czasem przyjmuje się np. α = 0 , 01 ,   α = 0 , 1. {\displaystyle \alpha =0{,}01,\ \alpha =0{,}1.}

Wyznaczenie obszaru krytycznego testu

Obszar krytyczny – obszar znajdujący się zawsze na krańcach rozkładu. Jeżeli obliczona przez nas wartość statystyki testowej znajdzie się w tym obszarze, to weryfikowaną przez nas hipotezę H 0 {\displaystyle H_{0}} odrzucamy. Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności α , {\displaystyle \alpha ,} natomiast jego położenie określane jest przez hipotezę alternatywną.

Obszar krytyczny od pozostałej części rozkładu statystyki oddzielony jest przez tzw. wartości krytyczne testu ( w α ) {\displaystyle (w_{\alpha })} , czyli wartości odczytane z rozkładu statystyki przy danym α , {\displaystyle \alpha ,} tak aby spełniona była relacja zależna od sposobu sformułowania H 1 . {\displaystyle H_{1}.}

Obliczenie statystyki na podstawie próby

Wyniki próby opracowujemy w odpowiedni sposób, zgodnie z procedurą wybranego testu i są one podstawą do obliczenia statystyki testowej. Większość statystyk testowych, mających dokładny rozkład normalny, t {\displaystyle t} -Studenta lub graniczny rozkład normalny, obliczamy w następujący sposób:

W = a b c , {\displaystyle W={\frac {a-b}{c}},}

gdzie:

W {\displaystyle W} – Statystyka testowa,
a {\displaystyle a} – Statystyka obliczona z próby,
b {\displaystyle b} Hipotetyczna wartość parametru(ów),
c {\displaystyle c} Odchylenie standardowe rozkładu statystyki.

Podjęcie decyzji

Wyznaczoną na podstawie próby wartość statystyki (P-wartość) porównujemy z wartością krytyczną testu.

  • Jeżeli wartość ta znajdzie się w obszarze krytycznym, to hipotezę zerową należy odrzucić jako nieprawdziwą. Stąd wniosek, że prawdziwa jest hipoteza alternatywna.
  • Jeżeli natomiast wartość ta znajdzie się poza obszarem krytycznym, oznacza to, że brak jest podstaw do odrzucenia hipotezy zerowej. Stąd wniosek, że hipoteza zerowa może, ale nie musi, być prawdziwa, a postępowanie nie dało żadnych dodatkowych informacji uprawniających do podjęcia decyzji o przyjęciu lub odrzuceniu hipotezy zerowej.

Reguły postępowania przy weryfikacji hipotez są określane mianem testów statystycznych.

Interpretacja wyniku istotnego lub nieistotnego statystycznie

Zgodnie ze stanowiskiem Amerykańskiego Towarzystwa Statystycznego z 2016 r. P-wartość badania sama w sobie nie niesie informacji o prawdziwości hipotezy badawczej, wartości dowodowej danych czy znaczenia oraz wielkości efektu i nie powinna być traktowana jako samodzielne kryterium poznawcze[3]. Statystycy rekomendują, aby w interpretacji wyników badań uwzględniać ich kontekst i transparentność. Wynik pojedynczego badania ani nawet grupy badań nie uprawniają same przez siebie do uznania żadnej hipotezy, stanowią jedynie słabsze lub mocniejsze ku temu dowody. Dopiero badanie, które jest intersubiektywnie i systematycznie powtarzalne, daje prawo do silniejszych wniosków[4].

Alternatywne podejścia

Powyższa standardowa procedura wymaga przyjęcia arbitralnego poziomu istotności α {\displaystyle \alpha } a wynikiem weryfikacji jest odpowiedź binarna – albo statystyka testowa mieści się w przedziale ufności, albo nie.

Alternatywnym i nowocześniejszym, choć mniej popularnym podejściem jest obliczenie zamiast tego surowej p-wartości (prawdopodobieństwa popełnienia błędu I rodzaju) i podawanie jej jako wyników weryfikacji. Dzięki temu nie ma potrzeby przyjmowania a priori żadnych wartości α , {\displaystyle \alpha ,} pozwala to również na porównywanie istotności różnych konkurencyjnych hipotez statystycznych.

Związane pojęcia

Zobacz też

Przypisy

  1. E.T.E.T. Jaynes E.T.E.T., Probability theory. The logic of science, Cambridge University Press, 2003, rozdział 18, ISBN 978-1-280-41722-1, OCLC 57254076 .
  2. Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 1, 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-09]  (ang.).
  3. Ronald L.R.L. Wasserstein Ronald L.R.L., Nicole A.N.A. Lazar Nicole A.N.A., The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 2, 2016, s. 129–133, DOI: 10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-09] .
  4. FisherF. R.A. FisherF., The design of experiments., Hafner Press, 1974, s. 14, ISBN 978-0-02-844690-5, OCLC 471778573 .

Bibliografia

  • Ryszard Zieliński: Siedem wykładów wprowadzających do statystyki matematycznej. Warszawa: 2004. http://web.archive.org/web/20040921200718/http://www.impan.gov.pl/~rziel/7ALL.pdf (dostęp: 21 maja 2008)
  • Lesław Gajek: Wnioskowanie statystyczne dla studentów. Modele i metody. Warszawa: 1998. ISBN 83-204-2489-5.
Kontrola autorytatywna (rodzaj testu):
  • GND: 4077852-6
  • NKC: ph126614
Encyklopedia internetowa:
  • Britannica: science/hypothesis-testing
  • Universalis: tests-d-hypotheses-statistiques
  • БРЭ: 4164353