Regresja logistyczna

Regresja logistyczna – jedna z metod regresji używanych w statystyce w przypadku, gdy zmienna zależna jest na skali dychotomicznej (przyjmuje tylko dwie wartości). Zmienne niezależne w analizie regresji logistycznej mogą przyjmować charakter nominalny, porządkowy, przedziałowy lub ilorazowy. W przypadku zmiennych nominalnych oraz porządkowych następuje ich przekodowanie w liczbę zmiennych zero-jedynkowych taką samą lub o 1 mniejszą niż liczba kategorii w jej definicji[1].

Zwykle wartości zmiennej objaśnianej wskazują na wystąpienie, lub brak wystąpienia pewnego zdarzenia, które chcemy prognozować. Regresja logistyczna pozwala wówczas na obliczanie prawdopodobieństwa tego zdarzenia (tzw. prawdopodobieństwo sukcesu).

Formalnie model regresji logistycznej jest uogólnionym modelem liniowym (GLM), w którym użyto logitu jako funkcji wiążącej.

Szansa

Regresja logistyczna opiera się na specyficznym sposobie wyrażania prawdopodobieństwa, zwanym szansą (ang. odds).

Zamiast określać prawdopodobieństwo klasycznie, za pomocą stosunku liczby sukcesów do liczby wszystkich prób, oblicza się szansę, czyli stosunek prawdopodobieństwa sukcesu do prawdopodobieństwa porażki.

Można ją łatwo wyliczyć ze zwykłego prawdopodobieństwa:

O d d s = p 1 p = e α e β x , {\displaystyle Odds={\frac {p}{1-p}}=e^{\alpha }e^{\beta x},}

gdzie:

α {\displaystyle \alpha } – stała regresji dla regresji logistycznej,
β {\displaystyle \beta } – współczynnik regresji logistycznej dla i {\displaystyle i} -tej zmiennej niezależnej,
x {\displaystyle x} – zmienna niezależna ( i {\displaystyle i} -ta).

Istnieje też odwrotne przekształcenie:

p = O d d s 1 + O d d s . {\displaystyle p={\frac {Odds}{1+Odds}}.}

Szansa ma pewną zaletę w porównaniu ze zwykłym zapisem prawdopodobieństwa – przyjmuje dla 0 < p < 1 {\displaystyle 0<p<1} wartości z zakresu ( 0 , + ) , {\displaystyle (0,+\infty ),} a jej logarytm wartości z zakresu ( , ) . {\displaystyle (-\infty ,\infty ).}

Dzięki temu można stosować do szacowania logarytmu szansy metody regresji nie ograniczone do przedziału [0,1] (np. regresję liniową).

Funkcja logit

Funkcja przekształcająca prawdopodobieństwo na logarytm szansy zwana jest logitem i przyjmuje postać:

logit ( p ) = ln p 1 p = ln ( p ) ln ( 1 p ) . {\displaystyle \operatorname {logit} (p)=\ln {\frac {p}{1-p}}=\ln(p)-\ln(1-p).}

Funkcja odwrotna:

p = e logit ( p ) 1 + e logit ( p ) = 1 1 + e logit ( p ) . {\displaystyle p={\frac {e^{\operatorname {logit} (p)}}{1+e^{\operatorname {logit} (p)}}}={\frac {1}{1+e^{-\operatorname {logit} (p)}}}.}

Model regresji logistycznej

Regresja logistyczna zakłada, że zmienna objaśniana ma rozkład dwupunktowy:

Y i   B ( p i , n i ) , {\displaystyle Y_{i}\ \sim B(p_{i},n_{i}),}   dla i = 1 , , m . {\displaystyle i=1,\dots ,m.}

gdzie liczba prób w procesie Bernoulliego n i {\displaystyle n_{i}} jest znana, a prawdopodobieństwo sukcesu p i {\displaystyle p_{i}} jest nieznane. Przykładem tej sytuacji jest rozkład odsetka kwiatów, które zakwitną, wśród n i {\displaystyle n_{i}} sadzonek.

Model zakłada, że dla każdej próby Bernoulliego (wartość i {\displaystyle i} ), istnieje zbiór k {\displaystyle k} zmiennych objaśniających, które niosą pewną informację na temat prawdopodobieństwa sukcesu. Te zmienne objaśniające można uważać za k {\displaystyle k} -elementowy wektor losowy X i . {\displaystyle X_{i}.} Model przyjmuje wówczas postać:

p i = E ( Y i n i | X i ) . {\displaystyle p_{i}=\operatorname {E} \left(\left.{\frac {Y_{i}}{n_{i}}}\right|X_{i}\right).}

Logit nieznanego prawdopodobieństwa sukcesu p i {\displaystyle p_{i}} jest modelowany jako liniowa funkcja X i : {\displaystyle X_{i}{:}}

logit ( p i ) = ln ( p i 1 p i ) = β 1 x 1 , i + + β k x k , i . {\displaystyle \operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\beta _{1}x_{1,i}+\ldots +\beta _{k}x_{k,i}.}

Do modelu można wprowadzić stałą, tworząc zmienną objaśniającą, mającą wszędzie wartość 1, czyli ustawiając x j , i = 1 {\displaystyle x_{j,i}=1} dla pewnego j {\displaystyle j} i wszystkich i . {\displaystyle i.} Nieznane parametry β j {\displaystyle \beta _{j}} są zwykle estymowane metodą największej wiarygodności.

Interpretacją szacowanego parametru β j {\displaystyle \beta _{j}} jest addytywny wpływ, jaki ma jednostkowa zmiana zmiennej j {\displaystyle j} na logarytm ilorazu szans (ang. odds ratio), definiowanego jako:

O R A x B = S ( A ) S ( B ) = P ( A ) 1 P ( A ) P ( B ) 1 P ( B ) = P ( A ) ( 1 P ( B ) ) P ( B ) ( 1 P ( A ) ) , {\displaystyle OR_{AxB}={\frac {S(A)}{S(B)}}={\frac {\frac {P(A)}{1-P(A)}}{\frac {P(B)}{1-P(B)}}}={\frac {P(A)\cdot (1-P(B))}{P(B)\cdot (1-P(A))}},}

gdzie: A , B {\displaystyle A,B} to rozpatrywane grupy, P {\displaystyle P} to prawdopodobieństwo wystąpienia zdarzenia w grupie, a S {\displaystyle S} to odpowiadająca mu szansa[2].

W przypadku zmiennych objaśniających na skali dychotomicznej (np. płeć), e β {\displaystyle e^{\beta }} jest estymacją szansy, powiedzmy, mężczyzn w porównaniu z kobietami.

Tak definiowany model regresji logistycznej wymaga, aby:

  • rozpatrywane obserwacje były od siebie niezależne;
  • l o g i t ( p i ) {\displaystyle logit(p_{i})} zależał w sposób liniowy od zmiennych objaśniających[3].

Model posiada równoważne sformułowanie w postaci:

p i = 1 1 + e ( β 1 x 1 , i + + β k x k , i ) . {\displaystyle p_{i}={\frac {1}{1+e^{-(\beta _{1}x_{1,i}+\ldots +\beta _{k}x_{k,i})}}}.}

Ta forma funkcjonalna jest znana jako perceptron lub jednowarstwowa sieć neuronowa.

Inne zastosowania

Model regresji logistycznej posiada także inne odmiany niż modele zmiennych jakościowych dwumianowych. Są to:

  • modele zmiennych wielomianowych uporządkowanych,
  • modele zmiennych wielomianowych nieuporządkowanych (w tym modele zagnieżdżone i warunkowe).

Podobne modele

Podobną procedurą jest zastosowanie regresji probitowej, w której zamiast funkcji logit stosuje się odwrotną dystrybuantę rozkładu normalnego (tzw. probit)

Zobacz też

Przypisy

  1. Małgorzata Rószkiewicz: Metody ilościowe w badaniach marketingowych. Warszawa: Wydawnictwo Naukowe PWN, 2012, s. 175–180. ISBN 978-83-01-13771-7.
  2. BarnabaB. Danieluk BarnabaB., Zastosowanie regresji logistycznej w badaniach eksperymentalnych, „Psychologia Społeczna”, 5 (2–3 (14)), 2010, s. 199-216, ISSN 1896-1800 [dostęp 2015-08-13] .
  3. Statystyka od A do Z portal edukacyjny poświęcony statystyce [online], www.statystyka.az.pl [dostęp 2018-01-06]  (pol.).

Bibliografia

  • Alan. Agresti: Categorical Data Analysis. Wiley-Interscience, Nowy Jork, 2002. ISBN 0-471-36093-7.
  • T. Amemiya: Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0.
  • N. Balakrishnan: Handbook of the Logistic Distribution. Marcel Dekker, Inc., 1991. ISBN 978-0-8247-8587-1.
  • William H. Green: Econometric Analysis, fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9.
  • David W. Hosmer: Applied Logistic Regression, 2nd ed. Stanley Lemeshow. Chichester, Wiley, Nowy Jork, 2000. ISBN 0-471-35632-8.

Linki zewnętrzne

  • Internetowy kalkulator regresji logistycznej (ang.)
  • Pakiet Javy o nazwie Mallet, zawiera moduł regresji logistycznej (ang.)
  • publikacja w otwartym dostępie – możesz ją przeczytać Logistic regression (ang.), Encyclopedia of Mathematics, encyclopediaofmath.org, [dostęp 2023-08-30].
Kontrola autorytatywna (type of statistical model):
  • LCCN: sh85078131
  • GND: 4230396-5
  • BnF: 13737339z
  • J9U: 987007536257205171