Modello probit

In rosso tratteggiato è rappresentato il modello probit.

In statistica e in econometria, il modello probit è un modello di regressione nonlineare utilizzato quando la variabile dipendente è di tipo dicotomico. L'obiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.[1]
Il modello è stato proposto per la prima volta da Chester Ittner Bliss nel 1934,[2] ampliato l'anno successivo da Ronald Fisher che introdusse un metodo iterativo per la stima dei parametri tramite il metodo della massima verosimiglianza.

Scelta della funzione

La funzione probit. L'inversa di questa funzione è utilizzata nel modello probit.

Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1.

E [ Y X = x ] = 1   P r ( Y = 1 X = x ) + 0   P r ( Y = 0 X = x ) =   P r ( Y = 1 X = x ) {\displaystyle \mathbb {E} \left[Y\mid X=x\right]=1\ Pr\left(Y=1\mid X=x\right)+0\ Pr\left(Y=0\mid X=x\right)=\ Pr\left(Y=1\mid X=x\right)}

Data questa limitazione dei valori di Y {\displaystyle Y} , la funzione da adottare per la regressione deve essere nonlineare con codominio C = [ 0 , 1 ] {\displaystyle C=\left[0,1\right]} , una caratteristica che possiedono le funzioni di ripartizione.[1] La necessità di non linearità deriva dal fatto che la funzione, per poter rimanere all'interno del codominio dato, deve avere derivata prima non costante, quindi dipendente dai regressori. Se così non fosse, la funzione sarebbe una retta e il suo codominio diventerebbe R {\displaystyle \mathbb {R} } . Si supponga infatti il seguente modello lineare:

  P r ( Y = 1 X = x ) = β 0 + β 1 X {\displaystyle \ Pr\left(Y=1\mid X=x\right)=\beta _{0}+\beta _{1}X}

dove la derivata

X   P r ( Y = 1 X = x ) = β 1 {\displaystyle {\frac {\partial }{\partial X}}\ Pr\left(Y=1\mid X=x\right)=\beta _{1}}

è costante e uguale al parametro β 1 {\displaystyle \beta _{1}} . In base al segno di questo parametro, la funzione sarà crescente, se positivo, o decrescente se negativo, ma non è possibile avere come codominio C {\displaystyle C} perché questo richiederebbe una derivata dipendente dal valore di X {\displaystyle X} . Se si considera invece il seguente modello:

  P r ( Y = 1 X = x ) =   F ( α 0 + α 1 X ) {\displaystyle \ Pr\left(Y=1\mid X=x\right)=\ F\left(\alpha _{0}+\alpha _{1}X\right)}

dove la derivata

X   P r ( Y = 1 X = x ) =   f ( α 0 + α 1 X ) α 1 {\displaystyle {\frac {\partial }{\partial X}}\ Pr\left(Y=1\mid X=x\right)=\ f\left(\alpha _{0}+\alpha _{1}X\right)\alpha _{1}}

è dipendente anche dalla variabile X {\displaystyle X} , è possibile, al variare di X {\displaystyle X} , far variare la pendenza della curva, limitando questa al codominio dato. Per il modello probit si utilizza come funzione F {\displaystyle F} la funzione di ripartizione della distribuzione normale standard, ossia l'inversa della funzione probit.[1]

Definizione

Il modello di regressione probit per la popolazione è:[1]

E [ Y X ] =   P r ( Y = 1 X 1 , , X k ) = Φ ( β 0 + β 1 X 1 + + β k X k ) = Φ ( X T β ) {\displaystyle \mathbb {E} \left[Y\mid \mathbf {X} \right]=\ Pr\left(Y=1\mid X_{1},\ldots ,X_{k}\right)=\Phi \left(\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}\right)=\Phi \left(\mathbf {X} ^{T}{\boldsymbol {\beta }}\right)}

dove:

  • P r {\displaystyle Pr} indica la probabilità;
  • Y {\displaystyle Y} è la variabile dipendente dicotomica con una distribuzione bernoulliana Y B e ( Φ ( X T β ) ) {\displaystyle Y\sim {\mathcal {Be}}\left(\Phi \left(\mathbf {X} ^{T}{\boldsymbol {\beta }}\right)\right)} ;
  • X {\displaystyle \mathbf {X} } è il vettore di variabili indipendenti o regressori X 1 , , X k {\displaystyle X_{1},\ldots ,X_{k}} ;
  • β {\displaystyle {\boldsymbol {\beta }}} è il vettore di parametri β 0 , , β k {\displaystyle \beta _{0},\ldots ,\beta _{k}} ;
  • Φ {\displaystyle \Phi } è la funzione di ripartizione della distribuzione normale standard.

Varianza

La varianza della variabile dipendente risulta dipendere dal vettore dei regressori X {\displaystyle \mathbf {X} } . Infatti

V a r ( Y X ) = E [ Y 2 X ] E [ Y X ] 2 = Φ ( X T β ) ( 1 Φ ( X T β ) ) {\displaystyle Var\left(Y\mid \mathbf {X} \right)=\mathbb {E} \left[Y^{2}\mid \mathbf {X} \right]-\mathbb {E} \left[Y\mid \mathbf {X} \right]^{2}=\Phi \left(\mathbf {X} ^{T}{\boldsymbol {\beta }}\right)\cdot \left(1-\Phi \left(\mathbf {X} ^{T}{\boldsymbol {\beta }}\right)\right)} .

Effetto marginale

L'effetto sulla variabile dipendente Y {\displaystyle Y} dato da un cambiamento in un regressore X j {\displaystyle X_{j}} , chiamato effetto marginale, è calcolato come la derivata del valore atteso di Y {\displaystyle Y} rispetto a X j {\displaystyle X_{j}} :

X j E [ Y X ] = Φ ( X T β ) = ϕ ( X T β ) β j {\displaystyle {\frac {\partial }{\partial X_{j}}}\mathbb {E} \left[Y\mid \mathbf {X} \right]=\Phi \left(\mathbf {X} ^{T}{\boldsymbol {\beta }}\right)=\phi \left(\mathbf {X} ^{T}{\boldsymbol {\beta }}\right)\cdot \beta _{j}}

dove ϕ {\displaystyle \phi } è la funzione di densità di probabilità della distribuzione normale standard e β j {\displaystyle \beta _{j}} è il parametro che moltiplica il regressore X j {\displaystyle X_{j}} .[1] Per il calcolo della derivata il regressore deve essere continuo.

Illustrazione del metodo

Per ogni osservazione campionaria i = 1 , , n {\displaystyle i=1,\ldots ,n} si dispone di una determinazione Y {\displaystyle Y} e di k {\displaystyle k} determinazioni X 1 , , X k {\displaystyle X_{1},\ldots ,X_{k}} . Il modello cerca una relazione non lineare, utilizzando la funzione di ripartizione della distribuzione normale standard, tra la variabile dipendente e k {\displaystyle k} variabili indipendenti, stimando il valore dei coefficienti β 0 , , β k {\displaystyle \beta _{0},\ldots ,\beta _{k}} tramite il metodo della massima verosimiglianza.[1]

Stima dei parametri

Il vettore di parametri β {\displaystyle {\boldsymbol {\beta }}} è di norma stimato con il metodo della massima verosimiglianza, con il quale si ottengono stimatori efficienti, consistenti e distribuiti normalmente nel caso in cui il campione statistico sia abbastanza grande.[3] Queste proprietà permettono di calcolare il test t su un parametro, il test F nel caso di restrizioni multiple e gli intervalli di confidenza.[3]

Funzione di verosimiglianza

Nel modello probit la variabile dipendente Y {\displaystyle Y} è dicotomica e con distribuzione Y B e ( p ) {\displaystyle Y\sim {\mathcal {Be}}\left(p\right)} . Si consideri un campione di n {\displaystyle n} osservazioni dove ciascuna di esse è identificata con i = 1 , , n {\displaystyle i=1,\ldots ,n} . Per la definizione del modello, la probabilità che questa variabile sia 1 per una data osservazione i {\displaystyle i} è

  P r ( Y i = 1 X 1 i , , X k i ) = Φ ( β 0 + β 1 X 1 i + + β k X k i ) = p i {\displaystyle \ Pr\left(Y_{i}=1\mid X_{1i},\ldots ,X_{ki}\right)=\Phi \left(\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki}\right)=p_{i}} ,

mentre la probabilità che sia 0 è

  P r ( Y i = 0 X 1 i , , X k i ) = 1 Φ ( β 0 + β 1 X 1 i + + β k X k i ) = 1 p i {\displaystyle \ Pr\left(Y_{i}=0\mid X_{1i},\ldots ,X_{ki}\right)=1-\Phi \left(\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki}\right)=1-p_{i}} .

La distribuzione di probabilità condizionata per ogni elemento i {\displaystyle i} può essere scritta come

  P r ( Y i = y i X 1 i , , X k i ) = p i y i ( 1 p i ) 1 y i {\displaystyle \ Pr\left(Y_{i}=y_{i}\mid X_{1i},\ldots ,X_{ki}\right)=p_{i}^{y_{i}}\left(1-p_{i}\right)^{1-y_{i}}} .

Si considera ora l'intero campione e sia assume che per ogni osservazione i {\displaystyle i} , ( X 1 i , X 2 i , , X k i , Y i ) {\displaystyle \left(X_{1i},X_{2i},\ldots ,X_{ki},Y_{i}\right)} siano indipendenti e identicamente distribuite. Risulta quindi che la distribuzione di probabilità congiunta di Y 1 , , Y n {\displaystyle Y_{1},\ldots ,Y_{n}} è il prodotto delle probabilità condizionate di ogni osservazione:

  P r ( Y 1 = y 1 , , Y n = y n X 1 i , , X k i ) = {\displaystyle \ Pr\left(Y_{1}=y_{1},\ldots ,Y_{n}=y_{n}\mid X_{1i},\ldots ,X_{ki}\right)=}
= Pr ( Y 1 = y 1 X 11 , , X k 1 )   P r ( Y n = y n X 1 n , , X k n ) = {\displaystyle =\Pr \left(Y_{1}=y_{1}\mid X_{11},\ldots ,X_{k1}\right)\cdot \ldots \cdot \ Pr\left(Y_{n}=y_{n}\mid X_{1n},\ldots ,X_{kn}\right)=}
= p 1 y 1 ( 1 p 1 ) 1 y 1 p n y n ( 1 p n ) 1 y n = i = 1 n p i y i ( 1 p i ) 1 y i {\displaystyle =p_{1}^{y_{1}}\left(1-p_{1}\right)^{1-y_{1}}\cdot \ldots \cdot p_{n}^{y_{n}}\left(1-p_{n}\right)^{1-y_{n}}=\prod _{i=1}^{n}p_{i}^{y_{i}}\left(1-p_{i}\right)^{1-y_{i}}} .

Si riprende ora la definizione del modello probit e la si sostituisce al posto di p i {\displaystyle p_{i}} , ottenendo quindi la funzione di verosimiglianza[4]

L p r o b i t ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) = i = 1 n [ Φ ( β 0 + β 1 X 1 i + + β k X k i ) ] Y i [ 1 Φ ( β 0 + β 1 X 1 i + + β k X k i ) ] 1 Y i {\displaystyle {\mathcal {L}}_{probit}\left(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}\right)=\prod _{i=1}^{n}\left[\Phi \left(\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki}\right)\right]^{Y_{i}}\left[1-\Phi \left(\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki}\right)\right]^{1-Y_{i}}} .

Metodo della massima verosimiglianza

Per calcolare gli stimatori β ^ 0 , β ^ 1 , , β ^ k {\displaystyle {\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}} dei parametri β 0 , β 1 , , β k {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}} risulta conveniente calcolare la funzione di log-verosimiglianza poiché in questo modo si riesce a eliminare la produttoria. Si applica quindi il logaritmo alla funzione di verosimiglianza:

l p r o b i t ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) = ln L p r o b i t ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) = {\displaystyle {\mathcal {l}}_{probit}\left(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}\right)=\ln {\mathcal {L}}_{probit}\left(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}\right)=}
= i = 1 n Y i ln [ Φ ( β 0 + β 1 X 1 i + + β k X k i ) ] + i = 1 n ( 1 Y i ) ln [ 1 Φ ( β 0 + β 1 X 1 i + + β k X k i ) ] {\displaystyle =\sum _{i=1}^{n}Y_{i}\ln \left[\Phi \left(\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki}\right)\right]+\sum _{i=1}^{n}\left(1-Y_{i}\right)\ln \left[1-\Phi \left(\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki}\right)\right]} .

Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:

{ β ^ 0 , β ^ 1 , , β ^ k } M V = arg max β 0 , , β k l p r o b i t ( β 0 , , β k ; Y 1 , , Y n X 1 i , , X k i ) {\displaystyle \left\{{\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}\right\}_{MV}=\arg \max _{\beta _{0},\ldots ,\beta _{k}}{\mathcal {l}}_{probit}\left(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}\right)} .[5]

Per semplificare la scrittura consideriamo β {\displaystyle {\boldsymbol {\beta }}} un vettore dei parametri β 0 , β 1 , , β k {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}} , ϕ {\displaystyle \phi } la derivata di Φ {\displaystyle \Phi } , ossia la funzione di densità di probabilità della distribuzione normale standard, e n {\displaystyle n} il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la derivata prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le concavità della funzione.

  • β l p r o b i t ( β ; y ) = 0 i = 1 n { y i Φ ( x i β ) Φ ( x i β ) [ 1 Φ ( x i β ) ] ϕ ( x i β ) } = 0 {\displaystyle {\frac {\partial }{\partial {\boldsymbol {\beta }}}}{\mathcal {l}}_{probit}\left({\boldsymbol {\beta }};\mathbf {y} \right)=0\Longleftrightarrow \sum _{i=1}^{n}\left\{{\frac {y_{i}-\Phi \left(\mathbf {x} _{i}'{\boldsymbol {\beta }}\right)}{\Phi \left(\mathbf {x} _{i}'{\boldsymbol {\beta }}\right)\left[1-\Phi \left(\mathbf {x} _{i}'{\boldsymbol {\beta }}\right)\right]}}\cdot \phi \left(\mathbf {x} _{i}'{\boldsymbol {\beta }}\right)\right\}=0}
  • 2 β β l p r o b i t ( β ; y ) < 0 {\displaystyle {\frac {\partial ^{2}}{\partial {\boldsymbol {\beta }}\partial {\boldsymbol {\beta '}}}}{\mathcal {l}}_{probit}\left({\boldsymbol {\beta }};\mathbf {y} \right)<0}

Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni algoritmi, trovano delle loro approssimazioni.[5]

Note

  1. ^ a b c d e f (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 437-439, ISBN 978-1-292-07131-2.
  2. ^ Chester I. Bliss, THE METHOD OF PROBITS, in Science, vol. 79, 12 gennaio 1934, pp. 38-39, DOI:10.1126/science.79.2037.38, PMID 17813446. URL consultato il 20 novembre 2018.
  3. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 441-442, ISBN 978-1-292-07131-2.
  4. ^ L'intera derivazione della funzione di verosimiglianza è consultabile alle pagine qui riportate. (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2.
  5. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2.

Bibliografia

  • (EN) William H. Greene, Chapter 21, in Econometric Analysis, 4ª ed., Prentice-Hall, 1993 [1990], ISBN 0-13-013297-7.
  • (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, ISBN 978-1-292-07131-2.

Voci correlate

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su modello probit


Controllo di autoritàThesaurus BNCF 57283 · LCCN (EN) sh85107103 · GND (DE) 4225469-3 · BNF (FR) cb123992565 (data) · J9U (ENHE) 987007538700405171
  Portale Economia
  Portale Statistica