Variância

Teoria das probabilidades
  • Axiomas de probabilidade
  • v
  • d
  • e

Na teoria da probabilidade e na estatística, a variância de uma variável aleatória ou processo estocástico é uma medida da sua dispersão estatística, indicando "o quão longe" em geral os seus valores se encontram do valor esperado.[1][2][3][4]

A variância de uma variável aleatória real é o seu segundo momento central e também o seu segundo cumulante (os cumulantes só diferem dos momentos centrais a partir do 4º grau, inclusive). Sendo o seu valor o quadrado do desvio padrão.

Algumas definições
Variância de uma variável aleatória é a medida de dispersão ou espalhamento em torno dos possíveis valores dessa variável aleatória (tradução livre,[1] ).

História do conceito

O termo variância foi introduzido por Ronald Fisher num ensaio de 1918 intitulado de The Correlation Between Relatives on the Supposition of Mendelian Inheritance. O conceito de variância é análogo ao conceito de momento de inércia em mecânica clássica.

Definição

Se μ = E(X) é o valor esperado (média) da variável aleatória X, então a variância é:

var ( X ) = E ( ( X μ ) 2 ) . {\displaystyle \operatorname {var} (X)=\operatorname {E} ((X-\mu )^{2}).}

Isto é, é o valor esperado do quadrado do desvio de X da sua própria média. Em linguagem comum isto pode ser expresso como "A média do quadrado da distância de cada ponto até a média". É assim a "média do quadrado dos desvios". A variância da variável aleatória "X" é geralmente designada por var ( X ) {\displaystyle \operatorname {var} (X)} , σ X 2 {\displaystyle \sigma _{X}^{2}} , ou simplesmente σ 2 {\displaystyle \sigma ^{2}} .

Notar que a definição acima pode ser usada quer para variáveis aleatórias discretas, quer para contínuas.

Muitas distribuições, tais como a distribuição de Cauchy, não têm variância porque o integral relevante diverge. Em particular, se uma distribuição não tem valores esperados, ela também não tem variância.

O contrário não é verdadeiro: há distribuições para as quais existe valor esperado mas não existe variância, como, por exemplo, a distribuição t de Student com 2 graus de liberdade. Um contra-exemplo mais simples é uma distribuição discreta sobre N {\displaystyle \mathbb {N} ^{\star }\,} em que a probabilidade de cada ponto n é proporcional a 1 n 3 {\displaystyle {\frac {1}{n^{3}}}\,} . O valor esperado será calculado através de uma série convergente Σ 1 n 2 {\displaystyle \Sigma {\frac {1}{n^{2}}}\,} , e a variância através de uma série divergente Σ 1 n {\displaystyle \Sigma {\frac {1}{n}}\,} .

Propriedades

Se a variância pode ser calculada (ou seja, a integral ou o somatório convergem), podemos concluir que ela nunca é negativa, porque os quadrados são sempre positivos ou nulos.

A unidade de variância é o quadrado da unidade de observação. Por exemplo, a variância de um conjunto de alturas medidas em centímetros será dada em centímetros quadrados. A variância de um preço, medido, por exemplo, em euros por metro cúbico, será dada em euros quadrados por metro à sexta potência, uma unidade que não faz nenhum sentido prático. Este facto é inconveniente e levou muitos estatísticos a usar a raiz quadrada da variância, conhecida como o desvio padrão, como um sumário da dispersão.

Pode ser provado facilmente a partir da definição que a variância não depende do valor médio μ {\displaystyle \mu } . Isto é, se a variável é "deslocada" por uma quantidade b ao tomarmos X+b, a variância da variável aleatória resultante permanece inalterada. Por contraste, se a variável for multiplicada por um factor de escala a, a variância é então multiplicada por a2. Mais formalmente, se a e b forem constantes reais e X uma variável aleatória cuja variância está definida, então:

var ( a X + b ) = a 2 var ( X ) {\displaystyle \operatorname {var} (aX+b)=a^{2}\operatorname {var} (X)}

Outra fórmula para a variância que se deduz de forma simples a partir da definição acima é:

var ( X ) = E ( X 2 ) ( E ( X ) ) 2 . {\displaystyle \operatorname {var} (X)=\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}.}

Na prática usa-se muito frequentemente esta fórmula para calcular mais rapidamente a variância.

Uma razão para o uso da variância em preferência a outras medidas de dispersão é que a variância da soma (ou diferença) de variáveis aleatórias independentes é a soma das suas variâncias. Uma condição não tão estrita, chamada de "incorrelação" (uncorrelatedness) também é suficiente. Para duas variáveis temos:

var ( X + Y ) = var ( X ) + var ( Y ) + 2 cov ( X , Y ) . {\displaystyle \operatorname {var} (X+Y)=\operatorname {var} (X)+\operatorname {var} (Y)+2\operatorname {cov} (X,Y).}
E em geral, para uma combinação linear qualquer:
Var ( i = 1 N a i X i ) = i , j = 1 N a i a j Cov ( X i , X j ) = i = 1 N a i 2 Var ( X i ) + i j a i a j Cov ( X i , X j ) = i = 1 N a i 2 Var ( X i ) + 2 1 i < j N a i a j Cov ( X i , X j ) . {\displaystyle {\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+\sum _{i\not =j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}}

Aqui cov {\displaystyle \operatorname {cov} } é a covariância, a qual é zero para variáveis aleatórias não correlacionadas.

Variância da população e variância da amostra

Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).

A variância (σ2) da população yi onde i = 1, 2, ...., N é dada por

σ 2 = 1 N i = 1 N ( y i μ ) 2 , {\displaystyle \sigma ^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(y_{i}-\mu \right)^{2},}

onde μ {\displaystyle \mu } é a média da população. E a variância da amostra é dada por:

s 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 , {\displaystyle s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2},}

onde x ¯ {\displaystyle {\overline {x}}} é a média da amostra.

Repare-se que aqui o denominador n-1 contrasta com a equação da variância da população. Uma fonte de confusão comum é que a variância da amostra, s2, s2n-1, s'2, quando muito denotada por s'n2, pode referir-se, para além de variância da amostra, como estimador não enviesado/centrado para a variância da população. Concluindo, independentemente da notação, ao desvio padrão populacional está associada a letra σ e a parcela 1/n, enquanto que ao desvio padrão amostral está associada a letra s e a parcela 1/(n-1), tendo sempre em conta que o quadrado do desvio padrão corresponde à variância (σ2 = variância).

É intuitivo que para amostras grandes, se possa admitir o calcular a variância pela divisão por n em vez de n-1 dando uma subestimativa da variância da população. Isto porque usamos a média da amostra x ¯ {\displaystyle {\overline {x}}} como uma estimativa da média da população μ {\displaystyle \mu } , o que não conhecemos. Na prática, para grandes n, esta distinção é geralmente muito pequena.

Generalizações

Se X é uma variável aleatória vectorial, com valores em Rn, e considerado como um vector coluna, então a generalização natural da variância é E[(X − μ)(X − μ)T], onde μ = E(X) e XT é a transposta de X, e logo um vetor-linha. A variância é uma matriz quadrada não-negativa definida, referida geralmente como a matriz de covariância.

Se X é uma variável aleatória de valores complexos, então a sua variância é E[(X − μ)(X − μ)*], onde X* é o conjugado complexo de X. Esta variância, assim como no caso real, é uma matriz quadrada não-negativa definida, cuja diagonal são números reais não-negativos.

Distribuição da variância

Como a variância é uma função de variáveis aleatórias, a variância amostral é em si também uma variável aleatória, portanto também tem distribuição. Então, se yi são observações independentes de uma distribuição normal, pelo teorema de Cochran a variância amostral s2 tem uma distribuição qui-quadrado:

( n 1 ) s 2 σ 2 χ n 1 2 . {\displaystyle (n-1){\frac {s^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}

Uma consequência direta deste resultado é que a esperança da variância amostral E(s2) = σ2.

Se as observações yi são independentes e identicamente distribuídas, mas não necessariamente distribuidas como uma normal, então

E [ s 2 ] = σ 2 , Var [ s 2 ] = σ 4 ( 2 n 1 + κ n ) , {\displaystyle \operatorname {E} [s^{2}]=\sigma ^{2},\quad \operatorname {Var} [s^{2}]=\sigma ^{4}\left({\frac {2}{n-1}}+{\frac {\kappa }{n}}\right),}

onde κ é a curtose da distribuição. Se as condições da lei dos grandes números valerem, então s2 é um estimador consistente de σ2.

Variância assintótica

A variância assintótica é a variância limite, ou seja, aquela que a sequência, ou estimador, tem no limite.

Ver também

Referências

  1. a b RUNGER, George C.; MONTGOMERY, Douglas C. Applied Statistics and Probability for Engineers. 3rd ed. Mídia em CD: 2002.
  2. TRIOLA, Mario F. Introdução à estatística. 10ª edição. Tradução: Vera Regina Lima de Farias. Rio de Janeiro: LTC, 2005.
  3. LAPPONI, Juan Carlos. Estatística usando Excel. 4ª edição. Rio de Janeiro: Elsevier, 2005.
  4. EVANS, Lawrence C. An introduction to stochastic differential equations. Version 1.2. ver: http://math.berkeley.edu/~evans/SDE.course.pdf. 2012.
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal da matemática
  • Portal de probabilidade e estatística
Controle de autoridade