Modello logit

Il modello logit è rappresentato in blu.

In statistica, il modello logit, noto anche come modello logistico o regressione logistica, è un modello di regressione nonlineare utilizzato quando la variabile dipendente è di tipo dicotomico. L'obiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.[1]

Il modello logit fa parte della classe dei modelli lineari generalizzati, così come il modello probit ed il modello loglineare, dai quali differisce essenzialmente per la scelta della funzione Λ {\displaystyle \Lambda } .[1]

Scelta della funzione

La funzione logit. L'inversa di questa funzione è utilizzata nella regressione logistica.

Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1. Poiché le probabilità per definizione sono limitate ad un intervallo C = [ 0 , 1 ] {\displaystyle C=\left[0,1\right]} , l'utilizzo di un modello di regressione lineare non sarebbe appropriato, infatti esso restituirebbe dei valori appartenenti all'intero insieme R {\displaystyle \mathbb {R} } .[2] Si supponga infatti il seguente modello lineare:

Pr ( Y = 1 X = x ) = β 0 + β 1 X . {\displaystyle \Pr(Y=1\mid X=x)=\beta _{0}+\beta _{1}X.}

La derivata

X Pr ( Y = 1 X = x ) = β 1 {\displaystyle {\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=\beta _{1}}

essendo costante e uguale al parametro β 1 {\displaystyle \beta _{1}} , non permette alla funzione di cambiare pendenza in base al valore di X {\displaystyle X} e quindi di poter avere come codominio C {\displaystyle C} . Questa caratteristica è invece posseduta, ad esempio, dalle funzioni di ripartizione.[2] L'utilizzo infatti di una funzione non lineare permette di avere una derivata prima dipendente da X {\displaystyle X} e quindi in grado di cambiare al variare di questa variabile. Se si considera infatti il seguente modello:

Pr ( Y = 1 X = x ) = F ( α 0 + α 1 X ) , {\displaystyle \Pr(Y=1\mid X=x)=F(\alpha _{0}+\alpha _{1}X),}

dove la derivata è la seguente

X Pr ( Y = 1 X = x ) = f ( α 0 + α 1 X ) α 1 . {\displaystyle {\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=f(\alpha _{0}+\alpha _{1}X)\alpha _{1}.}

Si nota come la pendenza della curva ora possa variare al variare di X {\displaystyle X} , potendo quindi possedere un codominio C {\displaystyle C} . Per il modello logit si utilizza come funzione F {\displaystyle F} la funzione di ripartizione della distribuzione logistica standard.[1]

Definizione

Il modello di regressione logit per la popolazione è:[1][3]

E [ Y X ] = Pr ( Y = 1 X 1 , , X k ) = Λ ( X T β ) = e β 0 + β 1 X 1 + + β k X k 1 + e β 0 + β 1 X 1 + + β k X k = p , {\displaystyle \mathbb {E} [Y\mid \mathbf {X} ]=\Pr(Y=1\mid X_{1},\ldots ,X_{k})=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}{1+e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}}=p,}

dove:

  • Pr {\displaystyle \Pr } indica la probabilità;
  • Y {\displaystyle Y} è la variabile dipendente dicotomica con una distribuzione bernoulliana Y B ( p ) {\displaystyle Y\sim {\mathcal {B}}(p)} ;
  • X {\displaystyle \mathbf {X} } è il vettore di variabili indipendenti o regressori X 1 , , X k {\displaystyle X_{1},\ldots ,X_{k}} ;
  • β {\displaystyle {\boldsymbol {\beta }}} è il vettore di parametri β 0 , , β k {\displaystyle \beta _{0},\ldots ,\beta _{k}} ;
  • Λ {\displaystyle \Lambda } è la funzione di ripartizione della distribuzione logistica standard;
  • e {\displaystyle e} è il numero di Eulero, circa uguale a 2 , 71828 {\displaystyle 2,71828} .

Varianza

La varianza della variabile dipendente risulta dipendere dal vettore dei regressori X {\displaystyle \mathbf {X} } . Infatti

V a r ( Y X ) = E [ Y 2 X ] E [ Y X ] 2 = Λ ( X T β ) ( 1 Λ ( X T β ) ) . {\displaystyle \mathrm {Var} (Y\mid \mathbf {X} )=\mathbb {E} \left[Y^{2}\mid \mathbf {X} \right]-\mathbb {E} \left[Y\mid \mathbf {X} \right]^{2}=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})\cdot (1-\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})).}

Effetto marginale

L'effetto sulla variabile dipendente Y {\displaystyle Y} dato da un cambiamento in un regressore X j {\displaystyle X_{j}} , chiamato effetto marginale, è calcolato come la derivata del valore atteso di Y {\displaystyle Y} rispetto a X j {\displaystyle X_{j}} :

X j E [ Y X ] = X j Λ ( X T β ) = X j e X T β 1 + e X T β = e X T β 1 + e X T β 1 1 + e X T β β j , {\displaystyle {\frac {\partial }{\partial X_{j}}}\mathbb {E} [Y\mid \mathbf {X} ]={\frac {\partial }{\partial X_{j}}}\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {\partial }{\partial X_{j}}}{\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}={\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot {\frac {1}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot \beta _{j},}

dove β j {\displaystyle \beta _{j}} è il parametro associato al regressore X j {\displaystyle X_{j}} .[1] Per il calcolo della derivata il regressore deve essere continuo.

Illustrazione del metodo

Per ogni osservazione campionaria i = 1 , , n {\displaystyle i=1,\ldots ,n} si dispone di una determinazione Y {\displaystyle Y} e di k {\displaystyle k} determinazioni X 1 , , X k {\displaystyle X_{1},\ldots ,X_{k}} . Il modello cerca una relazione non lineare, utilizzando la funzione di ripartizione della distribuzione logistica standard, tra la variabile dipendente e k {\displaystyle k} variabili indipendenti, stimando il valore dei coefficienti β 0 , , β k {\displaystyle \beta _{0},\ldots ,\beta _{k}} tramite il metodo della massima verosimiglianza.[1]

Stima del modello

Il vettore di parametri β {\displaystyle {\boldsymbol {\beta }}} è di norma stimato con il metodo della massima verosimiglianza, con il quale si ottengono stimatori efficienti, consistenti e distribuiti normalmente nel caso in cui il campione statistico sia abbastanza grande.[4] Queste proprietà permettono di calcolare il test t su un parametro, il test F nel caso di restrizioni multiple e gli intervalli di confidenza.[4] Alla stima dei parametri segue la stima della probabilità p {\displaystyle p} .

Funzione di verosimiglianza

Nel modello logit la variabile dipendente Y {\displaystyle Y} è dicotomica e con distribuzione Y B ( p ) {\displaystyle Y\sim {\mathcal {B}}(p)} . Si consideri un campione di n {\displaystyle n} osservazioni dove ciascuna di esse è identificata con i = 1 , , n {\displaystyle i=1,\ldots ,n} . Per la definizione del modello, la probabilità che questa variabile sia 1 per una data osservazione i {\displaystyle i} è

Pr ( Y i = 1 X 1 i , , X k i ) = Λ ( β 0 + β 1 X 1 i + + β k X k i ) = p i , {\displaystyle \Pr(Y_{i}=1\mid X_{1i},\ldots ,X_{ki})=\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=p_{i},}

mentre la probabilità che sia 0 è

Pr ( Y i = 0 X 1 i , , X k i ) = 1 Λ ( β 0 + β 1 X 1 i + + β k X k i ) = 1 p i . {\displaystyle \Pr(Y_{i}=0\mid X_{1i},\ldots ,X_{ki})=1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=1-p_{i}.}

La distribuzione di probabilità condizionata per ogni elemento i {\displaystyle i} può essere scritta come

Pr ( Y i = y i X 1 i , , X k i ) = p i y i ( 1 p i ) 1 y i . {\displaystyle \Pr(Y_{i}=y_{i}\mid X_{1i},\ldots ,X_{ki})=p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.}

Si considera ora l'intero campione e sia assume che X 1 i , X 2 i , , X k i , Y i {\displaystyle X_{1i},X_{2i},\ldots ,X_{ki},Y_{i}} siano indipendenti e identicamente distribuite per ogni osservazione i {\displaystyle i} . Risulta quindi che la distribuzione di probabilità congiunta di ( Y 1 , , Y n ) {\displaystyle (Y_{1},\ldots ,Y_{n})} è il prodotto delle probabilità condizionate di ogni osservazione:

Pr ( Y 1 = y 1 , , Y n = y n X 1 i , , X k i ) = Pr ( Y 1 = y 1 X 11 , , X k 1 ) Pr ( Y n = y n X 1 n , , X k n ) = = p 1 y 1 ( 1 p 1 ) 1 y 1 p n y n ( 1 p n ) 1 y n = i = 1 n p i y i ( 1 p i ) 1 y i . {\displaystyle {\begin{aligned}\Pr(Y_{1}=y_{1},\ldots ,Y_{n}=y_{n}\mid X_{1i},\ldots ,X_{ki})&=\Pr(Y_{1}=y_{1}\mid X_{11},\ldots ,X_{k1})\cdot \ldots \cdot \Pr(Y_{n}=y_{n}\mid X_{1n},\ldots ,X_{kn})=\\&=p_{1}^{y_{1}}(1-p_{1})^{1-y_{1}}\cdot \ldots \cdot p_{n}^{y_{n}}(1-p_{n})^{1-y_{n}}=\prod _{i=1}^{n}p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.\end{aligned}}}

Si riprende ora la definizione del modello logit e la si sostituisce al posto di p i {\displaystyle p_{i}} , ottenendo quindi la funzione di verosimiglianza[5]

L logit ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) = i = 1 n [ Λ ( β 0 + β 1 X 1 i + + β k X k i ) ] Y i [ 1 Λ ( β 0 + β 1 X 1 i + + β k X k i ) ] 1 Y i . {\displaystyle {\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})=\prod _{i=1}^{n}\left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{Y_{i}}\left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{1-Y_{i}}.}

Stima dei parametri

Per calcolare gli stimatori β ^ 0 , β ^ 1 , , β ^ k {\displaystyle {\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}} dei parametri β 0 , β 1 , , β k {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}} risulta conveniente calcolare la funzione di log-verosimiglianza poiché in questo modo si riesce a eliminare la produttoria. Si applica quindi il logaritmo alla funzione di verosimiglianza:

l logit ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) = ln L logit ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) = i = 1 n Y i ln [ Λ ( β 0 + β 1 X 1 i + + β k X k i ) ] + i = 1 n ( 1 Y i ) ln [ 1 Λ ( β 0 + β 1 X 1 i + + β k X k i ) ] {\displaystyle {\begin{aligned}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})&=\ln {\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})\\&=\sum _{i=1}^{n}Y_{i}\ln \left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]+\sum _{i=1}^{n}(1-Y_{i})\ln \left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]\end{aligned}}}

Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:

{ β ^ 0 , β ^ 1 , , β ^ k } M V = arg max β 0 , , β k l logit ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) . {\displaystyle \left\{{\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}\right\}_{MV}=\arg \max _{\beta _{0},\ldots ,\beta _{k}}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}).} [6]

Per semplificare la scrittura consideriamo β {\displaystyle {\boldsymbol {\beta }}} un vettore dei parametri β 0 , β 1 , , β k {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}} , λ {\displaystyle \lambda } la derivata di Λ {\displaystyle \Lambda } , ossia la funzione di densità di probabilità della distribuzione logistica, e n {\displaystyle n} il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la derivata prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le concavità della funzione e quindi garantire che quelli trovati siano solo punti di massimo:

  • β l logit ( β ; y ) = 0 i = 1 n { y i Λ ( x i β ) Λ ( x i β ) [ 1 Λ ( x i β ) ] λ ( x i β ) } = 0 ; {\displaystyle {\frac {\partial }{\partial {\boldsymbol {\beta }}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )=0\Longleftrightarrow \sum _{i=1}^{n}\left\{{\frac {y_{i}-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})}{\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\left[1-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right]}}\cdot \lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right\}=0;}
  • 2 β β l logit ( β ; y ) < 0. {\displaystyle {\frac {\partial ^{2}}{\partial {\boldsymbol {\beta }}\partial {\boldsymbol {\beta '}}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )<0.}

Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni algoritmi, trovano delle loro approssimazioni.[6]

Stima della probabilità

Quando è stato calcolato il vettore β ^ {\displaystyle {\boldsymbol {\hat {\beta }}}} , ossia la stima del vettore dei parametri β {\displaystyle {\boldsymbol {\beta }}} , è possibile procedere alla stima della probabilità p {\displaystyle p} . Per definizione del modello, questa probabilità è anche il valore atteso di Y {\displaystyle Y} .

p ^ = E ^ [ Y X ] = Λ ( X T β ^ ) = e X T β ^ 1 + e X T β ^ . {\displaystyle {\hat {p}}={\hat {\mathbb {E} }}\left[Y\mid \mathbf {X} \right]=\Lambda (\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}})={\frac {e^{\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\hat {\beta }}}}}}.}

Note

  1. ^ a b c d e f (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 442-443, ISBN 978-1-292-07131-2.
  2. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, p. 437, ISBN 978-1-292-07131-2.
  3. ^ Il valore attes
  4. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 441-442, ISBN 978-1-292-07131-2.
  5. ^ L'intera derivazione della funzione di verosimiglianza è consultabile alle pagine qui riportate. (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2.
  6. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2.

Bibliografia

  • (EN) Alan Agresti, Categorical Data Analysis, Wiley, 2003, ISBN 978-0-471-36093-3.
  • (EN) William H. Greene, Econometric Analysis, 4ª ed., Prentice Hall, 1999 [1993], ISBN 978-0-130-13297-0.
  • (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, ISBN 978-1-292-07131-2.
  • (EN) P. McCullagh e John A. Nelder, Generalized Linear Models, 2ª ed., Chapman and Hall/CRC, 1989, ISBN 978-0-412-31760-6.

Voci correlate

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su regressione logistica
Controllo di autoritàLCCN (EN) sh85078131 · GND (DE) 4230396-5 · BNF (FR) cb13737339z (data) · J9U (ENHE) 987007536257205171
  Portale Economia
  Portale Statistica