Regressão linear

Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.[1][2]

Exemplo de regressão linear.

A regressão, em geral, tem como objetivo tratar de um valor que não se consegue estimar inicialmente.

A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, é usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.[3]

Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos. [carece de fontes?]

Equação da Regressão Linear

Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.

y i = α + β X i + ε i {\displaystyle y_{i}=\alpha +\beta \,X_{i}+\varepsilon _{i}}

, onde:

y i {\displaystyle y_{i}} : Variável explicada (dependente); representa o que o modelo tentará prever

α {\displaystyle \alpha } : É uma constante, que representa a interceptação da reta com o eixo vertical;

β {\displaystyle \beta } : Representa a inclinação (coeficiente angular) em relação à variável explicativa;

X i {\displaystyle X_{i}} : Variável explicativa (independente);

ε i {\displaystyle \varepsilon _{i}} : Representa todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: terem distribuição normal, com a mesma variância σ 2 {\displaystyle \sigma ^{2}\,} , independentes e independentes da variável explicativa X, ou seja, i.i.d. (independentes e identicamente distribuídas).

Notação Matricial

A equação acima pode ser reescrita em forma de matriz:

y = X β + ε {\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}

Onde y {\displaystyle \mathbf {y} } é uma matriz de n × 1 {\displaystyle n\times 1} observações, X {\displaystyle \mathbf {X} } é uma matriz de tamanho n × p + 1 {\displaystyle n\times p+1} (sendo a primeira coluna com valores sempre = 1, representando a constante α {\displaystyle \alpha } , e p {\displaystyle p} é a quantidade de variáveis explicativas), β {\displaystyle {\boldsymbol {\beta }}} é uma matriz de p + 1 × 1 {\displaystyle p+1\times 1} variáveis explicativas (sendo que β 0 {\displaystyle \beta _{0}} representa a constante α {\displaystyle \alpha } ) e ε {\displaystyle {\boldsymbol {\varepsilon }}} é uma matriz de n × 1 {\displaystyle n\times 1} de resíduos.

y = [ y 1 y 2 y n ] , X = [ 1 X 11 X 12 X 1 p 1 X 21 X 22 X 2 p 1 X n 1 X n 2 X n p ] , β = [ β 0 β 1 β 2 β p ] , ε = [ ε 1 ε 2 ε n ] {\displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}},\qquad \mathbf {X} ={\begin{bmatrix}1&X_{11}&X_{12}&\cdots &X_{1p}\\1&X_{21}&X_{22}&\cdots &X_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&X_{n1}&X_{n2}&\cdots &X_{np}\end{bmatrix}},\qquad {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\qquad {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}}

Estimativa dos fatores α {\displaystyle \alpha } e β {\displaystyle \beta }

A técnica mais usual para estimativa dos parâmetros α {\displaystyle \alpha } e β {\displaystyle \beta } é o Método dos mínimos quadrados, mas também podem ser usados:

Interpretação dos parâmetros do modelo

O chamado intercepto ou coeficiente linear ( β 0 {\displaystyle \beta _{0}} ) é utilizado para representar o ponto em que a reta da regressão corta o eixo Y quando X = 0. Já o parâmetro  representa a inclinação da reta ( β 1 {\displaystyle \beta _{1}} ) é denominado como coeficiente de regressão ou coeficiente angular. A interpretação geométrica dos coeficientes podem ser vistos na imagem abaixo.

Uma desvantagem é que o modelo de regressão linear simples não acomoda impactos de erros experimentais (variação de matéria prima), de erros de medida, entre outras inúmeras fontes de variabilidade


Com base no modelo representado na imagem assim, é possível identificar que :

  • A relação matemática entre Y e X é linear
  • Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória
  • A média do erro é nula, ou seja E ( ε i ) = 0 {\displaystyle E(\varepsilon _{i})=0} .

E ( Y i ) = E ( β 0 + β 1 x i + ϵ i ) = β 0 + β 1 x i + E ( ϵ i ) = β 0 + β 1 x i {\displaystyle E(Y_{i})=E(\beta _{0}+\beta _{1}x_{i}+\epsilon _{i})=\beta _{0}+\beta _{1}x_{i}+E(\epsilon _{i})=\beta _{0}+\beta _{1}x_{i}}

Dado isto, temos que a regressão do modelo acima e dado por:

E [ Y | x ] = β 0 + β 1 x {\displaystyle E[Y|x]=\beta _{0}+\beta _{1}x}

  • Sabendo que para cada valor de X, a variação de ε i {\displaystyle \varepsilon _{i}} será sempre σ 2 {\displaystyle \sigma ^{2}} , teremos que:

V a r ( ϵ i ) = E ( ϵ i 2 ) [ E ( ϵ i ) 2 ] = E ( ϵ i 2 ) = σ 2 {\displaystyle Var(\epsilon _{i})=E(\epsilon _{i}^{2})-[E(\epsilon _{i})^{2}]=E(\epsilon _{i}^{2})=\sigma ^{2}} Assim temos que :

V a r ( Y i ) = E [ Y i E ( Y i | x i ) 2 ] = E ( ϵ i 2 ) = σ 2 {\displaystyle Var(Y_{i})=E[Y_{i}-E(Y_{i}|x_{i})^{2}]=E(\epsilon _{i}^{2})=\sigma ^{2}}

Quando deparamos com casos como este, dizemos que o erro é homocedástico, ou seja, a variância é constante.

  • Em casos como esse, esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal,  esta hipótese é equivalente a independência dos erros.

C o v ( ϵ i , ϵ j ) = E ( ϵ i ϵ j ) E ( ϵ i ) E ( ϵ j ) = E ( ϵ i , ϵ j ) = 0 {\displaystyle Cov(\epsilon _{i},\epsilon _{j})=E(\epsilon _{i}\epsilon _{j})-E(\epsilon _{i})E(\epsilon _{j})=E(\epsilon _{i},\epsilon _{j})=0} i j {\displaystyle i\neq j}

Ver também

Ligações externas

  • SysLinea 0.1.2 : Programa de código aberto com regressão linear e não linear.
  • Manual da Regressão Linear

Referências

  1. «Linear regression» (PDF) (em inglês). Stanford.edu. Consultado em 10 de julho de 2019  !CS1 manut: Língua não reconhecida (link)
  2. «Chapter 9 - Simple linear regression» (PDF) (em inglês). Carnegie Mellon University - Statistics & Data Science. Consultado em 10 de julho de 2019  !CS1 manut: Língua não reconhecida (link)
  3. http://www.fisica.ufs.br/egsantana/cinematica/regresion/regresion.htm Regressão linear com experimêntos físicos [ligação inativa]

Bibliografia

  • REIS, E., Estatistica Descritiva (2ª ed.). Lisboa: Edições Sílabo, 1994
  • v
  • d
  • e
Econometria
Regressão linear
Método dos mínimos quadrados · R² · Teste t · Teste F · Valor-p
Regressão não-linear
Ajustes nos modelos
Correlação serial · Endogeneidade · Heteroscedasticidade · Mínimos quadrados de dois estágios  · Multicolinearidade · Variável dummy · Variáveis instrumentais · Regressão quantílica · Teste de especificação de Hausman
Variável dependente limitada
Série temporal
Softwares
EViews · Gretl · LIMDEP & NLOGIT · IGEst  · MATLAB  · R  · Shazam software  · Stata  · Octave  · JMulTi  · PSPP
Pessoas
Adrien-Marie Legendre  · Carl Friedrich Gauss  · David Dickey · George Box  · Gwilym Jenkins  · George Chow · Lars Peter Hansen  · Ronald Fisher  · Wayne Fuller
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de economia e negócios
  • Portal da matemática
  • Portal de probabilidade e estatística