Varianza

Disambiguazione – Se stai cercando il grado di libertà in termodinamica, vedi Grado di libertà (chimica).

Questa voce o sezione sull'argomento statistica non cita le fonti necessarie o quelle presenti sono insufficienti.

In statistica e in teoria della probabilità la varianza di una variabile statistica o di una variabile aleatoria $X$ è una funzione, indicata con $\sigma _{X}^{2}$ o con $\mathrm {Var} (X)$ (o semplicemente con $\sigma ^{2}$ se la variabile è sottintesa), che fornisce una misura della variabilità dei valori assunti dalla variabile stessa; nello specifico, la misura di quanto essi si discostino quadraticamente rispettivamente dalla media aritmetica o dal valore atteso $\mathbb {E} [X]$ .

Il termine di "varianza" venne introdotto nel 1918 da Ronald Fisher e sostituì nel tempo la denominazione di "deviazione standard quadratica" utilizzata da Karl Pearson.

Probabilità

Definizione

La varianza della variabile aleatoria $X$ è definita come il valore atteso del quadrato della variabile aleatoria centrata $X-\mathbb {E} [X]$

\sigma _{X}^{2}=\mathbb {E} {\Big [}{\big (}X-\mathbb {E} [X]{\big )}^{2}{\Big ]}.

Un esempio di "misura" dello scostamento di una variabile aleatoria dalla media è dato dalla disuguaglianza di Čebyšëv che controlla questo scostamento in termini dello scarto tipo:

P{\Big (}{\big |}X-\mathbb {E} [X]{\big |}\geqslant \lambda \sigma _{X}{\Big )}\leqslant {\frac {1}{\lambda ^{2}}},

dove $\sigma _{X}={\sqrt {\sigma _{X}^{2}}}$

Proprietà

Segno della varianza

La varianza di una variabile aleatoria non è mai negativa, ed è zero solamente quando la variabile assume quasi certamente un solo valore $x_{0}$ , cioè se $P(X=x_{0})=1$ .

Massimo e minimo della varianza fissati i valori estremi della distribuzione

Dato un insieme di $n$ unità statistiche, dove $\mathrm {min}$ e $\mathrm {max}$ sono i valori minimo e massimo tra le unità, il massimo valore che può assumere la varianza è uguale a

\sigma _{\mathrm {max} }^{2}={\frac {(\mathrm {max} -\mathrm {min} )^{2}}{4}}.

Se dalle osservazioni si conosce soltanto la media $\mu$ , il valore è uguale a

\sigma _{\mathrm {max} }^{2}=\mu ^{2}(n-1).

Espressione della varianza come differenza tra il momento di ordine 2 e il quadrato del valore atteso

Lo stesso argomento in dettaglio: Formula computazionale per la varianza.

Una formula alternativa per la varianza è

\sigma _{X}^{2}=\mathbb {E} [X^{2}]-\mathbb {E} [X]^{2}\

Questa formula è più pratica per calcolare la varianza.

Invarianza per traslazione

La varianza è invariante per traslazione, che lascia fisse le distanze dalla media, e cambia quadraticamente per riscalamento:

\sigma _{aX+b}^{2}=a^{2}\sigma _{X}^{2}\

Varianza della somma di due variabili indipendenti

La varianza della somma di due variabili indipendenti o anche solo incorrelate è pari alla somma delle loro varianze

\sigma _{X+Y}^{2}=\sigma _{X}^{2}+\sigma _{Y}^{2}.

Varianza della differenza di due variabili indipendenti

Usando le due precedenti affermazioni, possiamo dire che la varianza della differenza di due variabili indipendenti è pari alla somma delle loro varianze

\sigma _{X-Y}^{2}=\sigma _{X+(-Y)}^{2}=\sigma _{X}^{2}+\sigma _{-Y}^{2}=\sigma _{X}^{2}+\sigma _{Y}^{2}.

Varianza della somma di due variabili non indipendenti

Se $X$ e $Y$ non sono indipendenti, la formula viene corretta dalla loro covarianza,

\sigma _{X+Y}^{2}=\sigma _{X}^{2}+\sigma _{Y}^{2}+2\sigma _{X,Y},

dove

\sigma _{X,Y}=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].

Varianza della media aritmetica di variabili indipendenti

In particolare, la media aritmetica $\textstyle {\bar {X}}={\frac {X_{1}+\ldots +X_{n}}{n}}$ di $n$ variabili aleatorie indipendenti aventi la medesima distribuzione, ha varianza aritmetica

\sigma _{\bar {X}}^{2}={\frac {1}{n^{2}}}\sigma _{X_{1}+\ldots +X_{n}}^{2}={\frac {1}{n}}\sigma _{X_{1}}^{2}.

Variabili aleatorie discrete e continue

La varianza di una variabile aleatoria discreta $X$ a valori in un insieme $A$ si calcola attraverso la sua funzione di probabilità:

\mathbb {E} [X]=\sum _{x\in A}xP(X=x)

\sigma _{X}^{2}=\sum _{x\in A}(x-\mathbb {E} [X])^{2}P(X=x).

La varianza di una variabile aleatoria continua $X$ a valori in un insieme $A$ si calcola attraverso la sua densità di probabilità:

\mathbb {E} [X]=\int _{A}xf(x)dx

\sigma _{X}^{2}=\int _{A}(x-\mathbb {E} [X])^{2}f(x)dx.

Esempio

Una variabile aleatoria di Bernoulli $X$ , cioè che ha probabilità $p$ di fornire "1" e probabilità $q=1-p$ di fornire "0", ha valore atteso

\mathbb {E} [X]=0\cdot P(X=0)+1\cdot P(X=1)=P(X=1)=p,

e la sua varianza può essere calcolata come

\sigma _{X}^{2}=\mathbb {E} [(X-\mathbb {E} [X])^{2}]=\mathbb {E} [(X-p)^{2}]=p^{2}P(X=0)+q^{2}P(X=1)=pq(p+q)=pq,

oppure come

\sigma _{X}^{2}=\mathbb {E} [X^{2}]-\mathbb {E} [X]^{2}=P(X=1)-p^{2}=p(1-p)=pq.

Statistica

In statistica la varianza è un indice di variabilità. Data una distribuzione di un carattere quantitativo $X$ su una popolazione di $n$ elementi, la varianza è la media aritmetica del quadrato delle distanze dei valori dalla loro media

\sigma _{X}^{2}={\frac {\sum _{i}(x_{i}-\mu _{X})^{2}}{n}},

dove $\textstyle \mu _{X}={\frac {\sum _{i}x_{i}}{n}}$ è la media aritmetica di $X$ .

Nel caso si disponga della distribuzione di frequenze di un carattere, è possibile calcolare più facilmente la varianza attraverso la seguente formula:

\sigma _{X}^{2}={\frac {1}{n}}\sum _{j=1}^{K}(x_{j}-\mu _{X})^{2}n_{j}

dove $K$ rappresenta il numero di modalità in cui si presenta il carattere x, mentre $x_{j}$ e $n_{j}$ sono rispettivamente la j-esima modalità di x e la relativa frequenza assoluta.

A partire dalla precedente formula, ricordando che $n_{j}/n=f_{j}$ , si ricava anche:

\sigma _{X}^{2}=\sum _{j=1}^{K}(x_{j}-\mu _{X})^{2}f_{j}

dove $f_{j}$ è la frequenza relativa della j-esima modalità.

Esiste, infine, una formula semplificata per il calcolo della varianza:

\sigma _{X}^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}\right)-\mu _{X}^{2}

Le formule corrispondenti alla precedente che fanno uso della frequenza assoluta e di quella relativa sono:

\sigma _{X}^{2}={\frac {1}{n}}\sum _{j=1}^{K}x_{j}^{2}n_{j}-\mu _{X}^{2}

\sigma _{X}^{2}=\sum _{j=1}^{K}x_{j}^{2}f_{j}-\mu _{X}^{2}

Un difetto della varianza è quello di non avere la stessa unità di misura dei valori analizzati (se, per esempio, questi sono in cm, la varianza sarà in cm²), perciò in statistica viene molto spesso utilizzata anche la radice quadrata della varianza, vale a dire lo scarto quadratico medio (o deviazione standard o scarto tipo) $\sigma _{X}={\sqrt {\sigma _{X}^{2}}}$ . Con riferimento a questa notazione la varianza si trova quindi anche indicata come $\sigma ^{2}$ .

Stimatori

In statistica si utilizzano solitamente due stimatori per la varianza su un campione di cardinalità $n$ :

S_{n}^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{n}}\quad

\quad S_{n-1}^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{n-1}},

dove $\textstyle {\bar {x}}={\frac {x_{1}+\ldots +x_{n}}{n}}$ è la media campionaria. Il primo è detto varianza campionaria, mentre il secondo è detto varianza campionaria corretta a causa della sua proprietà di correttezza. Infatti lo stimatore $S_{n-1}^{2}$ è privo di distorsione, cioè il suo valore atteso è proprio la varianza:

\mathbb {E} [S_{n-1}^{2}]=\sigma ^{2}(X)

Al contrario, lo stimatore $S_{n}^{2}$ ha un valore atteso diverso dalla varianza, $\mathbb {E} [S_{n}^{2}]=\textstyle {\frac {n-1}{n}}\sigma ^{2}(X)$ .

Una spiegazione del termine $n-1$ è data dalla necessità di stimare anche la media che per il teorema del limite centrale ha varianza 1/n. Se la media è nota, lo stimatore $S_{n}^{2}$ diventa corretto. Questa è detta "correzione di Bessel".

Se le $X_{i}$ sono variabili aleatorie normali $N(\mu ,\sigma )$ , lo stimatore $S_{n-1}^{2}$ è una variabile aleatoria con distribuzione $\chi ^{2}$ .

Esempio

Il campione di $n=5$ elementi $\{-4,-1,1,2,7\}$ ha media campionaria pari a:

{\bar {x}}={\frac {-4-1+1+2+7}{5}}=1

e gli stimatori della varianza valgono rispettivamente

S_{n}^{2}={\frac {(-4-1)^{2}+(-1-1)^{2}+(1-1)^{2}+(2-1)^{2}+(7-1)^{2}}{5}}={\frac {25+4+0+1+36}{5}}={\frac {66}{5}}=13,2

S_{n-1}^{2}={\frac {66}{5-1}}=16,5.

Voci correlate

Altri progetti

Wikizionario
Wikimedia Commons

Wikizionario contiene il lemma di dizionario «varianza»
Wikimedia Commons contiene immagini o altri file sulla varianza

Collegamenti esterni

(EN) variance, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
(EN) Eric W. Weisstein, Varianza, su MathWorld, Wolfram Research.
(EN) IUPAC Gold Book, "variance", su goldbook.iupac.org.

V · D · M

Statistica

Teoria statistica

Statistica descrittiva	Media (aritmetica · geometrica · armonica · di potenza · aritmetico-geometrica · integrale) · Mediana · Moda · Intervallo di variazione · Varianza · Deviazione standard · Scarto medio assoluto · Simmetria · Differenza media (assoluta · logaritmica) · Curtosi
Inferenza statistica	Test di verifica d'ipotesi · Significatività · Ipotesi nulla/alternativa · Errore del I e del II tipo · Test Q · Test U · Test t · Test Z · Massima verosimiglianza · Standardizzazione · Valore p · Analisi della varianza
Analisi di sopravvivenza	Tasso di guasto · Stimatore di Kaplan-Meier · Test dei ranghi logaritmici
Analisi della regressione	Regressione lineare · Regressione nonlineare · Variabili strumentali · Metodo generalizzato dei momenti · Regressione logistica · Modello probit · Modello logit

Statistica economica

Istituti statistici	ISTAT · EuroSTAT · Royal Statistical Society · U.S. Census Bureau · ISI · INSEE
Siti web statistici	Our World in Data · Statista · Bloomberg Terminal · Google Public Data Explorer · World Inequality Database · TradingEconomics · ACLED
Software econometrici	gretl · EViews

V · D · M Concetti fondamentali di metrologia, statistica e metodologia della ricerca
Definizioni di base	Misurazione · Misura di probabilità · Proprietà fisica · Grandezza fisica · Parametro · Popolazione statistica · Valore vero · Campione · Misurando · Precisione · Accuratezza · Ripetibilità · Riproducibilità · Significatività · Tolleranza · Sensibilità · Risoluzione (Risoluzione laterale) · Omoschedasticità · Eteroschedasticità · Ipotesi statistica · Ipotesi nulla · Approssimazione · Cifra significativa · Variabile casuale · Normalizzazione · Standardizzazione
Trattamento degli errori	Incertezza di misura · Errore di misurazione · Errore sistematico · Errore statistico · Errore di sensibilità · Falso positivo e falso negativo · Errore assoluto · Errore relativo · Propagazione degli errori · Bias
Minimizzazione dell'errore	Bianco analitico · Taratura · Calibrazione · Rapporto segnale/rumore · Confronto interlaboratorio · Qualità dei dati · Outlier
Campionamento	Spazio campionario · Campionamento statistico · Piano di campionamento · Campionamento ragionato · Campionamento per quote · Campionamento casuale (Campionamento sistematico · Campionamento stratificato · Campionamento a grappoli · Campionamento multistadio) · Campionamento probabilistico
Parametri di varianza	Varianza · Covarianza · Scarto quadratico medio · Devianza · Intervallo dinamico · Coefficiente di variazione
Test	Test di verifica d'ipotesi (Test parametrico· Test non parametrico) · Intervallo di confidenza · Valore p