Função correlograma

Estatística
  • v
  • d
  • e

Em análise de dados, um correlograma é uma imagem da estatística da correlação. Em análise de séries temporais, por exemplo, um correlograma, também conhecido como diagrama de autocorrelação, é um diagrama das autocorrelações da amostra r h {\displaystyle r_{h}} versus h {\displaystyle h} (os intervalos de tempo).

Se a relação cruzada for usada, o resultado é chamado de correlograma cruzado. O correlograma é uma ferramenta comumente usado para checar a aleatoriedade de um conjunto de dados. Esta aleatoriedade é verificada ao computar autocorrelações para valores de dados em intervalo de tempo variantes. Em caso de aleatoriedade, tais autocorrelações devem ser próximas de zero para quaisquer e todas as separações de intervalo de tempo. Em caso de não aleatoriedade, então uma ou mais autocorrelações devem ser significantemente diferentes de zero.

Além disso, correlogramas são usados no estágio da identificação de modelo para os modelos de série temporal autorregressivos de médias móveis de Box-Jenkins. Autocorrelações devem ser próximas de zero para aleatoriedade. Se o analista não verificar a aleatoriedade, então, a validade de muitas conclusões estatísticas se torna suspeita. O correlograma é uma forma adequada de checar tal aleatoriedade.

Por vezes, corgramas, matrizes coloridas de forças de correlação em análise multivariada,[1] também são chamados de correlogramas.[2][3]

Aplicações

Uma diagrama que mostra 100 números aleatórios com uma função seno "oculta" e uma autocorrelação (correlograma) na parte inferior.

O correlograma pode ajudar a fornecer respostas para as seguintes questões:[4]

  • Os dados são aleatórios?
  • A observação está relacionada a uma observação adjacente?
  • A observação está relacionada a uma observação duplamente removida?
  • A série temporal observada é ruído branco?
  • A série temporal observada é senoide?
  • A série temporal observada é autorregressiva?
  • Qual é o modelo apropriado para a série temporal observada?
  • O modelo Y = constante + erro {\displaystyle Y={\text{constante}}+{\text{erro}}} é válido e suficiente?
  • A fórmula s Y ¯ = s / N {\displaystyle s_{\bar {Y}}=s/{\sqrt {N}}} é válida?

Definição

Exemplo para um correlograma.

O estimador de covariância não centrada é dado pela média do produto de amostras que se encontram à distância de h {\displaystyle h} :[5]

C ( h ) = 1 N ( h ) α = 1 N ( h ) [ Z ( x α ) Z ( x α + h ) ] . {\displaystyle C'(h)={\frac {1}{N(h)}}\sum _{\alpha =1}^{N(h)}[Z(x_{\alpha })Z(x_{\alpha }+h)].}

Para obter o estimador centrado, é necessário subtrair o produto das médias das amostras que se encontrem nos pares distânciados por h {\displaystyle h} :

C ( h ) = 1 N ( h ) α = 1 N ( h ) [ Z ( x α ) Z ( x α + h ) m ( x α ) m ( x α + h ) ] , {\displaystyle C'(h)={\frac {1}{N(h)}}\sum _{\alpha =1}^{N(h)}[Z(x_{\alpha })Z(x_{\alpha }+h)m(x_{\alpha })m(x_{\alpha }+h)],}

em que

m ( x α ) = 1 N ( h ) α = 1 N ( h ) Z ( x α ) {\displaystyle m(x_{\alpha })={\frac {1}{N(h)}}\sum _{\alpha =1}^{N(h)}Z(x_{\alpha })}

e

m ( x α + h ) = 1 N ( h ) α = 1 N ( h ) Z ( x α + h ) . {\displaystyle m(x_{\alpha }+h)={\frac {1}{N(h)}}\sum _{\alpha =1}^{N(h)}Z(x_{\alpha }+h).}

A partir da covariância, podemos calcular o correlograma:

ρ ( h ) = C ( h ) σ ( x α ) 2 σ ( x α + h 2 ) . {\displaystyle \rho (h)={\frac {C(h)}{\sqrt {\sigma _{(x_{\alpha })}^{2}\sigma _{(x_{\alpha }+h}^{2})}}}.}

Dado que a covariância tem relação direta com o variograma, em que C ( 0 ) {\displaystyle C(0)} é o patamar,

γ ( h ) = C ( 0 ) C ( h ) , {\displaystyle \gamma (h)=C(0)-C(h),}

também o correlograma tem relação direta com a variância

ρ ( h ) = C ( h ) C ( 0 ) {\displaystyle \rho (h)={\frac {C(h)}{C(0)}}} .

Importância

A aleatoriedade, ao lado do modelo fixo, da variação fixa e da distribuição fixa, é um dos quatro pressupostos que subjazem tipicamente todos os processos de mensuração. O pressuposto da aleatoriedade é criticamente importante por três razões:[4]

  • A maioria dos testes estatísticos padrão depende de aleatoriedade. A validade das conclusões dos testes é diretamente ligada à validade do pressuposto de aleatoriedade.
  • Muitas fórmulas estatísticas comumente usadas dependem do pressuposto de aleatoriedade, sendo a mais comum destas a fórmula que determina o desvio padrão da média amostral:
s Y ¯ = s / N , {\displaystyle s_{\bar {Y}}=s/{\sqrt {N}},}
em que s {\displaystyle s} é o desvio padrão dos dados. Ainda que amplamente usada, os resultados do uso desta fórmula não têm valor a não ser que o pressuposto de aleatoriedade se aplique.
  • Para dados univariados, o modelo padrão é
Y = constante + erro . {\displaystyle Y={\text{constante}}+{\text{erro}}.}
Se os dados não forem aleatórios, este modelo é incorreto e inválido e os valores estimados para tais parâmetros (tal como a constante) se tornam inválidos e desprovidos de sentido.

Estimação de autocorrelações

O coeficiente de autocorrelação no intervalo h {\displaystyle h} é dado por

r h = c h / c 0 , {\displaystyle r_{h}=c_{h}/c_{0},}

em que c h {\displaystyle c_{h}} é a função autocovariância

c h = 1 N t = 1 N h ( Y t Y ¯ ) ( Y t + h Y ¯ ) {\displaystyle c_{h}={\frac {1}{N}}\sum _{t=1}^{N-h}\left(Y_{t}-{\bar {Y}}\right)\left(Y_{t+h}-{\bar {Y}}\right)}

e c 0 {\displaystyle c_{0}} é a função variância

c 0 = 1 N t = 1 N ( Y t Y ¯ ) 2 . {\displaystyle c_{0}={\frac {1}{N}}\sum _{t=1}^{N}\left(Y_{t}-{\bar {Y}}\right)^{2}.}

O valor resultante de r h {\displaystyle r_{h}} estará entre 1 {\displaystyle -1} e + 1 {\displaystyle +1} .[6]

Estimativa alternativa

Algumas fontes podem usar a seguinte fórmula para a função autocovariância:

c h = 1 N h t = 1 N h ( Y t Y ¯ ) ( Y t + h Y ¯ ) . {\displaystyle c_{h}={\frac {1}{N-h}}\sum _{t=1}^{N-h}\left(Y_{t}-{\bar {Y}}\right)\left(Y_{t+h}-{\bar {Y}}\right).}

Ainda que esta definição tenha menos viés, a formulação ( 1 / N ) {\displaystyle (1/N)} tem algumas propriedades estatísticas desejáveis e é a forma mais comumente usada em literatura estatística.[7]

Inferência estatística com correlogramas

No mesmo grafo, é possível definir limites superiores e inferiores para autocorrelação com nível de significância α {\displaystyle \alpha } :

B = ± z 1 α / 2 S E ( r h ) , {\displaystyle B=\pm z_{1-\alpha /2}SE(r_{h}),}

com r h {\displaystyle r_{h}} como a autocorrelação estimada no intervalo h {\displaystyle h} .

Se a autocorrelação for maior do que o limite superior ou menor do que o limite inferior, a hipótese nula de que não há autocorrelação em e além de um dado intervalo é rejeitada ao nível de significância α {\displaystyle \alpha } . O teste é de tipo aproximado e assume que a série temporal é gaussiana.[6]

Na descrição acima, z 1 α / 2 {\displaystyle z_{1-\alpha /2}} é o quantil da distribuição normal, S E {\displaystyle SE} é o desvio padrão, que pode ser computado pela fórmula de M. S. Bartlett para processos M A ( ) {\displaystyle MA(\ell )} :

S E ( r 1 ) = 1 N {\displaystyle SE(r_{1})={\frac {1}{\sqrt {N}}}}
S E ( r h ) = 1 + 2 i = 1 h 1 r i 2 N {\displaystyle SE(r_{h})={\sqrt {\frac {1+2\sum _{i=1}^{h-1}r_{i}^{2}}{N}}}} para h > 1. {\displaystyle h>1.\,}

Na imagem acima, é possível rejeitar a hipótese nula de que não há autocorrelação entre os pontos de tempos que são adjacentes (intervalo igual a 1). Para outros períodos, não é possível rejeitar a hipótese nula de nenhuma autocorrelação.

Note que há duas fórmulas distintas para gerar os intervalos de confiança:

1. Se o correlograma estiver sendo usando para testar aleatoriedade, isto é, ver se não há dependência de tempo nos dados, a seguinte fórmula é recomendada:
± z 1 α / 2 N {\displaystyle \pm {\frac {z_{1-\alpha /2}}{\sqrt {N}}}}
em que N {\displaystyle N} é o tamanho da amostra, z {\displaystyle z} é a função quantil da distribuição normal padrão e α {\displaystyle \alpha } é o nível de significância. Neste caso, os intervalos de confiança têm amplitude fixa que depende do tamanho da amostra.
2. Correlogramas também são usados no estágio de identificação de modelo para ajuste de modelos autorregressivos integrados de média móvel. Neste caso, um modelo de média móvel é pressuposto para os dados e os seguintes intervalos de confiança devem ser gerados:
± z 1 α / 2 1 N ( 1 + 2 i = 1 k r i 2 ) {\displaystyle \pm z_{1-\alpha /2}{\sqrt {{\frac {1}{N}}\left(1+2\sum _{i=1}^{k}r_{i}^{2}\right)}}}
em que k {\displaystyle k} é o intervalo. Neste caso, os intervalos de confiança aumentam conforme o intervalo aumenta.

Ver também

Referências

  1. Friendly, Michael (1 de novembro de 2002). «Corrgrams». The American Statistician. 56 (4): 316–324. ISSN 0003-1305. doi:10.1198/000313002533 
  2. Wright, Kevin. «Plot a Correlogram [R package corrgram version 1.12]» 
  3. [email protected], Robert Kabacoff -. «Quick-R: Correlograms». www.statmethods.net. Consultado em 18 de julho de 2017 
  4. a b Hanke, John E.; Wichern, Dean W. (12 de fevereiro de 2014). Business Forecasting (em inglês). [S.l.]: Pearson Higher Ed. ISBN 9780133796087 
  5. Soares, Amílcar. Geoestatística para as ciências da terra e do ambiente. [S.l.]: Instituto Superior. ISBN 9789728469467 
  6. a b Box, George E. P.; Jenkins, Gwilym M. (1976). Time series analysis: forecasting and control (em inglês). [S.l.]: Holden-Day. ISBN 9780816211043 
  7. Chatfield, Chris (30 de março de 2016). The Analysis of Time Series: An Introduction, Sixth Edition (em inglês). [S.l.]: CRC Press. ISBN 9780203491683 

Ligações externas

  • Diagrama de autocorrelação do Engineering Statistics Handbook (em inglês)
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de probabilidade e estatística