Regressão não linear

Exemplo de regressão não linear

Em estatística, a regressão não linear é uma forma de análise de regressão em que dados observacionais são modelados por uma função que é uma combinação não linear dos parâmetros do modelo e depende de uma ou mais variáveis independentes. Os dados são ajustados por um método de aproximações sucessivas.[1]

Definição

Curva de saturação para uma enzima mostrando a relação entre a concentração do substrato (abcissas) e a velocidade de reação (ordenadas).

Os dados consistem de variáveis independentes livres de erro (variáveis explicativas) x {\displaystyle x} e suas variáveis dependentes observadas associadas (variáveis de resposta) y {\displaystyle y} . Cada y {\displaystyle y} é modelada como uma variável aleatória com uma média dada por uma função não linear f ( x , β ) {\displaystyle f(x,\beta )} . O erro sistemático pode estar presente, mas seu tratamento está fora do escopo da análise de regressão. Se as variáveis independentes não estiverem livres de erro, este é um modelo com erros nas variáveis, também fora do escopo.[2]

Por exemplo, o modelo de Michaelis–Menten para cinética de enzimas

v = V max   [ S ] K m + [ S ] {\displaystyle v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}}

pode ser escrito como

f ( x , β ) = β 1 x β 2 + x {\displaystyle f(x,{\boldsymbol {\beta }})={\frac {\beta _{1}x}{\beta _{2}+x}}}

em que β 1 {\displaystyle \beta _{1}} é o parâmetro V max {\displaystyle V_{\max }} , β 2 {\displaystyle \beta _{2}} é o parâmetro K m {\displaystyle K_{m}} e [ S ] {\displaystyle [{\mbox{S}}]} é a variável independente x {\displaystyle x} . Esta função é não linear porque não pode ser expressa como uma combinação linear dos dois β {\displaystyle \beta } s.

Outros exemplos de funções não lineares incluem funções exponenciais naturais, crescimentos logarítmicos, funções trigonométricas, exponenciações, funções de Gauss e curvas de Lorenz. Algumas funções, tais como as funções exponenciais e logarítmicas, podem ser transformadas a fim de que se tornem lineares. Quando transformadas, a regressão linear padrão pode ser realizada, mas deve ser aplicada com cautela.

Em geral, não há expressão de forma fechada para os parâmetros mais bem ajustados, como há na regressão linear. Geralmente, algoritmos de otimização numérica são aplicados para determinar os parâmetros mais bem ajustados. De novo em contraste com a regressão linear, pode haver muitos mínimos locais da função a ser otimizada e mesmo o mínimo global pode produzir uma estimativa viesada. Na prática, valores estimados dos parâmetros são usados, em conjunção com o algoritmo de otimização, a fim de encontrar o mínimo global de uma soma de quadrados.

Estatística

O pressuposto subjacente a este procedimento é de que o modelo pode ser aproximado por uma função linear.

f ( x i , β ) f 0 + j J i j β j {\displaystyle f(x_{i},{\boldsymbol {\beta }})\approx f^{0}+\sum _{j}J_{ij}\beta _{j}}

em que J i j = f ( x i , β ) β j {\displaystyle J_{ij}={\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}} . Segue-se disto que os estimadores dos mínimos quadrados são dados por

β ^ ( J T J ) 1 J T y . {\displaystyle {\hat {\boldsymbol {\beta }}}\approx \mathbf {(J^{T}J)^{-1}J^{T}y} .}

A estatística da regressão não linear é computada e usada como na estatística da regressão linear, mas usando J {\displaystyle {\boldsymbol {J}}} no lugar de X {\displaystyle {\boldsymbol {X}}} nas fórmulas. A aproximação linear introduz viés na estatística. Por isso, mais cautela ainda é exigida na interpretação da estatística derivada de um modelo não linear.

Mínimos quadrados ordinários e ponderados

Assume-se que a curva mais bem ajustada seja a que minimiza a soma dos quadrados dos resíduos.[3] Esta é a abordagem dos mínimos quadrados ordinários. Entretanto, nos casos em que a variável dependente não tem variância constante, uma soma dos quadrados ponderados dos resíduos ponderados pode ser minimizada. Cada peso deve ser idealmente igual à recíproca da variância da observação, mas os pesos devem ser recomputados em cada iteração em um algoritmo de mínimos quadrados iterativamente ponderados.

Linearização

Relação entre rendimento da colza e salinidade do solo

Transformação

Alguns problemas da regressão não linear podem ser movidos para um domínio linear por uma transformação adequada da formulação do modelo.[4]

Por exemplo, considere o problema da regressão não linear[5]

y = a e b x U {\displaystyle y=ae^{bx}U\,\!}

com parâmetros a {\displaystyle a} e b {\displaystyle b} e com termo de erro multiplicativo U {\displaystyle U} . Tomando o logaritmo de ambos os lados, isto se torna

ln ( y ) = ln ( a ) + b x + u , {\displaystyle \ln {(y)}=\ln {(a)}+bx+u,\,\!}

em que u = ln ( U ) {\displaystyle u=\ln(U)} , sugerindo a estimação dos parâmetros desconhecidos por uma regressão linear de ln ( y ) {\displaystyle \ln(y)} em x {\displaystyle x} , uma computação que não requer otimização iterativa. Entretanto, o uso da transformação não linear exige cautela. As influências dos valores dos dados mudarão, assim como a estrutura de erro do modelo e a interpretação de quaisquer resultados inferenciais. Estes efeitos podem não ser desejados. Por outro lado, dependendo de qual seja a maior fonte de erro, uma transformação não linear pode distribuir os erros em uma forma gaussiana, logo, a escolha de fazer uma transformação não linear deve ser informada por considerações de modelagem.

Para a cinética de Michaelis-Menten, o diagrama linear de Lineweaver-Burk

1 v = 1 V max + K m V max [ S ] {\displaystyle {\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}}

de 1 v {\displaystyle {\frac {1}{v}}} contra 1 [ S ] {\displaystyle {\frac {1}{[S]}}} tem sido muito usado. Entretanto, por ser muito sensível a erros de dados e fortemente viesado em favor de ajustar os dados a um intervalo particular da variável independente [ S ] {\displaystyle [S]} , seu uso é fortemente desencorajado.

Para distribuições de erros que pertencem à família exponencial, uma função de ligação pode ser usada para transformar os parâmetros sob o quadro do modelo linear generalizado.

Segmentação

A variável independente ou explicativa X {\displaystyle X} pode ser dividida em classes ou segmentos e a regressão linear pode ser realizada por segmento. A regressão segmentada com análise de confiança pode fazer que a variável dependente ou de resposta Y {\displaystyle Y} se comporte diferentemente nos vários segmentos.[6]

A imagem ao lado mostra, por exemplo, que a salinidade do solo X {\displaystyle X} inicialmente não exerce influência no rendimento Y {\displaystyle Y} da colza até um valor crítico, a partir do qual o rendimento é afetado negativamente.[7]

Ver também

Referências

  1. Schittkowski, Klaus (5 de junho de 2013). Numerical Data Fitting in Dynamical Systems: A Practical Introduction with Applications and Software (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9781441957627 
  2. Seber, George A. F.; Wild, C. J. (19 de setembro de 2003). Nonlinear Regression (em inglês). [S.l.]: John Wiley & Sons. ISBN 9780471471356 
  3. Meade, Nigel; Islam, Towhidul (1 de setembro de 1995). «Prediction intervals for growth curve forecasts». Journal of Forecasting (em inglês). 14 (5): 413–430. ISSN 1099-131X. doi:10.1002/for.3980140502 
  4. Bethea, Robert M. (30 de março de 1995). Statistical Methods for Engineers and Scientists, Third Edition, (em inglês). [S.l.]: CRC Press. ISBN 9780824793357 
  5. Mazucheli, Josmar; Achcar, Jorge Alberto (22 de abril de 2008). «Algumas considerações em regressão não linear». Acta Scientiarum. Technology. 24 (0): 1761–1770. ISSN 1807-8664 
  6. Ritzema, H. P. (1 de janeiro de 1994). Drainage Principles and Applications (em inglês). [S.l.]: International Institute for Land Reclamation and Improvement. ISBN 9789070754334 
  7. Oosterbaan, R.J. (2002). «Drainage Research in Farmers' Fields: Analysis of Data» (PDF). Liquid Gold. Consultado em 14 de junho de 2017 
  • v
  • d
  • e
Regressão linear
Regressão não-linear
Ajustes nos modelos
Correlação serial · Endogeneidade · Heteroscedasticidade · Mínimos quadrados de dois estágios  · Multicolinearidade · Variável dummy · Variáveis instrumentais · Regressão quantílica · Teste de especificação de Hausman
Variável dependente limitada
Série temporal
Softwares
EViews · Gretl · LIMDEP & NLOGIT · IGEst  · MATLAB  · R  · Shazam software  · Stata  · Octave  · JMulTi  · PSPP
Pessoas
Adrien-Marie Legendre  · Carl Friedrich Gauss  · David Dickey · George Box  · Gwilym Jenkins  · George Chow · Lars Peter Hansen  · Ronald Fisher  · Wayne Fuller
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais