Indice di correlazione di Pearson

Esempi di grafici di dispersione con differenti valori di indice di correlazione (ρ)

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1], coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1]

Secondo la disuguaglianza di Cauchy-Schwarz ha un valore compreso tra + 1 {\displaystyle +1} e 1 , {\displaystyle -1,} dove + 1 {\displaystyle +1} corrisponde alla perfetta correlazione lineare positiva, 0 {\displaystyle 0} corrisponde a un'assenza di correlazione lineare e 1 {\displaystyle -1} corrisponde alla perfetta correlazione lineare negativa. Fu sviluppato da Karl Pearson da un'idea introdotta da Francis Galton nel 1880; la formula matematica fu derivata e pubblicata da Auguste Bravais nel 1844.[2][3][4] La denominazione del coefficiente è anche un esempio della legge di Stigler.

Definizione

Date due variabili statistiche X {\displaystyle X} e Y {\displaystyle Y} , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

ρ X Y = σ X Y σ X σ Y . {\displaystyle \rho _{XY}={\frac {\sigma _{XY}}{\sigma _{X}\sigma _{Y}}}.}

dove σ X Y {\displaystyle \sigma _{XY}} è la covarianza tra X {\displaystyle X} e Y {\displaystyle Y} e σ X , σ Y {\displaystyle \sigma _{X},\sigma _{Y}} sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra 1 {\displaystyle -1} e 1 : {\displaystyle 1:} [5]

1 ρ X Y 1. {\displaystyle -1\leq \rho _{XY}\leq 1.}

Correlazione e indipendenza

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se ρ X Y > 0 {\displaystyle \rho _{XY}>0} , le variabili X {\displaystyle X} e Y {\displaystyle Y} si dicono direttamente correlate, oppure correlate positivamente;
  • se ρ X Y = 0 {\displaystyle \rho _{XY}=0} , le variabili X {\displaystyle X} e Y {\displaystyle Y} si dicono incorrelate;
  • se ρ X Y < 0 {\displaystyle \rho _{XY}<0} , le variabili X {\displaystyle X} e Y {\displaystyle Y} si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se 0 < | ρ X Y | < 0 , 3 {\displaystyle 0<\left|\rho _{XY}\right|<0,3} si ha correlazione debole;
  • se 0 , 3 < | ρ X Y | < 0 , 7 {\displaystyle 0,3<\left|\rho _{XY}\right|<0,7} si ha correlazione moderata;
  • se | ρ X Y | > 0 , 7 {\displaystyle \left|\rho _{XY}\right|>0,7} si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che X {\displaystyle X} e Y {\displaystyle Y} non sono indipendenti in quanto legate dalla relazione Y = X 2 {\displaystyle Y=X^{2}} , ma ρ X Y = 0 {\displaystyle \rho _{XY}=0} .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale + 1 {\displaystyle +1} in presenza di correlazione lineare positiva perfetta (cioè Y = a + b X {\displaystyle Y=a+bX} , con b > 0 {\displaystyle b>0} ), mentre vale 1 {\displaystyle -1} in presenza di correlazione lineare negativa perfetta (cioè Y = a + b X {\displaystyle Y=a+bX} , con b < 0 {\displaystyle b<0} ).

Valori prossimi a + 1 {\displaystyle +1} (o 1 {\displaystyle -1} ) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica: Y = X 2 {\displaystyle Y=X^{2}}

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente ρ X Y = 0 , 9844 {\displaystyle \rho _{XY}=0,9844} .

Generalizzazione a più di due variabili

Gli indici di correlazione di n {\displaystyle n} variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione n × n {\displaystyle n\times n} avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè ( ρ j i = ρ i j ) {\displaystyle (\rho _{ji}=\rho _{ij})} , e i coefficienti sulla diagonale valgono 1 , {\displaystyle 1,} in quanto

ρ i i = σ i i σ i 2 . {\displaystyle \rho _{ii}={\frac {\sigma _{ii}}{\sigma _{i}^{2}}}.}

Proprietà matematiche

Un valore dell'indice di correlazione uguale a + 1 {\displaystyle +1} o 1 {\displaystyle -1} corrisponde a punti che si trovano esattamente su una linea retta. Il coefficiente di correlazione di Pearson è simmetrico: ρ X Y = ρ Y X . {\displaystyle \rho _{XY}=\rho _{YX}.}

Una proprietà matematica caratteristica del coefficiente di correlazione di Pearson è che non varia rispetto ai cambiamenti singoli della posizione e della scala delle due variabili. Cioè, possiamo trasformare X {\displaystyle X} in a + b X {\displaystyle a+bX} e trasformare Y {\displaystyle Y} in c + d Y , {\displaystyle c+dY,} dove a , b , c {\displaystyle a,b,c} e d {\displaystyle d} sono costanti reali con b , d > 0 , {\displaystyle b,d>0,} senza modificare il coefficiente di correlazione.

Esempio in R

Utilizzando il linguaggio di programmazione R si vuole calcolare l'indice di correlazione di Pearson tra la variabile Fertility rate, total (births per woman) e la variabile GDP per capita (current US$) nel 2020 , fornite dalla Banca Mondiale qui : https://databank.worldbank.org/reports.aspx?source=world-development-indicators . Per fare questo si utilizza la funzione cor nel seguente modo :

library(dplyr)

World_Bank_Data <- read.csv("World_Bank_Data.csv")

df1 <- World_Bank_Data %>%
  filter(Series.Name=="Fertility rate, total (births per woman)") %>%
  select(Country.Name,X2020..YR2020.)

colnames(df1)[2] <- "Numero di figli per donna"

df2 <- World_Bank_Data %>%
  filter(Series.Name=="GDP per capita (current US$)"   ) %>%
  select(Country.Name,X2020..YR2020.)

colnames(df2)[2] <- "Pil procapite"

df1 <- merge(df1,df2 , by="Country.Name")

df1$`Numero di figli per donna` <- as.numeric(df1$`Numero di figli per donna`)
df1$`Pil procapite` <- as.numeric(df1$`Pil procapite`)

df1 <- df1[-which(is.na(df1$`Pil procapite`)),]
df1 <- df1[-which(is.na(df1$`Numero di figli per donna`)),]

cor(df1$`Numero di figli per donna`,df1$`Pil procapite`,)
-0.4601806

Note

  1. ^ a b Glossario Istat, su www3.istat.it (archiviato dall'url originale il 31 dicembre 2011).
  2. ^ (F. Galton) (24 September 1885), "The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section," Nature, 32 (830) : 507–510..
  3. ^ Karl Pearson (20 June 1895) "Notes on regression and inheritance in the case of two parents," Proceedings of the Royal Society of London, 58 : 240–242..
  4. ^ Stigler, Stephen M. (1989). "Francis Galton's Account of the Invention of Correlation". Statistical Science. 4 (2): 73–79..
  5. ^ Ross, p. 117.

Bibliografia

  • Sheldon M. Ross, Introduzione alla statistica, 2ª ed., Maggioli Editore, 2014, ISBN 8891602671.

Voci correlate

  • Coefficiente di correlazione per ranghi di Spearman
  • Coefficiente di correlazione per ranghi di Kendall
  • Regressione lineare
  • Correlazione (statistica)
  • Karl Pearson
  • Francis Galton, il primo a introdurre la lettera r (come abbreviazione di "regressione") anche se utilizzava un coefficiente diverso, in quanto normava usando lo scarto interquartile.

Collegamenti esterni

  • (EN) Ken Stewart, Pearson’s correlation coefficient, su Enciclopedia Britannica, Encyclopædia Britannica, Inc. Modifica su Wikidata
  • (EN) Eric W. Weisstein, Indice di correlazione di Pearson, su MathWorld, Wolfram Research. Modifica su Wikidata
Controllo di autoritàGND (DE) 4165345-2
  Portale Economia
  Portale Statistica