Współczynnik korelacji Pearsona

Przykładowe wykresy danych (x, y) i odpowiadające im wartości współczynnika korelacji liniowej Pearsona

Współczynnik korelacji liniowej Pearsonawspółczynnik określający poziom zależności liniowej między zmiennymi losowymi. Został opracowany przez Karla Pearsona.

Wzory matematyczne

Niech x {\displaystyle x} i y {\displaystyle y} będą zmiennymi losowymi o dyskretnych rozkładach. x i , y i {\displaystyle x_{i},y_{i}} oznaczają wartości prób losowych tych zmiennych ( i = 1 , 2 , , n ) , {\displaystyle (i=1,2,\dots ,n),} natomiast x ¯ , y ¯ {\displaystyle {\overline {x}},{\overline {y}}} – wartości średnie z tych prób, tj.

x ¯ = 1 n i = 1 n x i , y ¯ = 1 n i = 1 n y i . {\displaystyle {\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i},{\overline {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}.}

Wówczas estymator współczynnika korelacji liniowej definiuje się następująco:

r x y = i = 1 n ( x i x ¯ ) ( y i y ¯ ) i = 1 n ( x i x ¯ ) 2 i = 1 n ( y i y ¯ ) 2 , {\displaystyle r_{xy}={\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}},}
r x y [ 1 , 1 ] . {\displaystyle r_{xy}\in [-1,1].}

Ogólnie współczynnik korelacji liniowej dwóch zmiennych jest ilorazem kowariancji i iloczynu odchyleń standardowych tych zmiennych:

r X Y = c o v ( X , Y ) σ X σ Y . {\displaystyle r_{XY}={\frac {\mathrm {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}.}

W szczególności dla zmiennych losowych o dyskretnych rozkładach ma on postać

r X Y = c o v ( X , Y ) σ X σ Y = ( i = 1 n j = 1 m P ( X = x i , Y = y j ) x i y j ) X ¯ Y ¯ ( i = 1 n P ( X = x i ) x i 2 ) X ¯ 2 ( i = 1 m P ( Y = y i ) y i 2 ) Y ¯ 2 . {\displaystyle r_{XY}={\frac {\mathrm {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}={\frac {\left(\sum _{i=1}^{n}\sum _{j=1}^{m}P(X=x_{i},Y=y_{j})x_{i}y_{j}\right)-{\overline {X}}\;{\overline {Y}}}{{\sqrt {\left(\sum _{i=1}^{n}P(X=x_{i})x_{i}^{2}\right)-{\overline {X}}^{2}}}{\sqrt {\left(\sum _{i=1}^{m}P(Y=y_{i})y_{i}^{2}\right)-{\overline {Y}}^{2}}}}}.}

Wartość współczynnika korelacji mieści się w przedziale domkniętym [−1, 1]. Im większa jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi. r x y = 0 {\displaystyle r_{xy}=0} oznacza brak liniowej zależności między cechami, r x y = 1 {\displaystyle r_{xy}=1} oznacza dokładną dodatnią liniową zależność między cechami, natomiast r x y = 1 {\displaystyle r_{xy}=-1} oznacza dokładną ujemną liniową zależność między cechami, tzn. jeżeli zmienna x {\displaystyle x} rośnie, to y {\displaystyle y} maleje i na odwrót.

Współczynnik korelacji liniowej można traktować jako znormalizowaną kowariancję. Korelacja przyjmuje zawsze wartości w zakresie [−1, 1], co pozwala uniezależnić analizę od dziedziny badanych zmiennych.

Poziomy korelacji i ich interpretacja

Korelacje Ujemne Dodatnie
Słabe −0,5 do 0,0 0,0 do 0,5
Silne −1,0 do −0,5 0,5 do 1,0

Korelacje można interpretować jako silne, słabe, ujemne[1][2]. Interpretacja taka jest jednak arbitralna i nie możemy jej traktować zbyt ściśle. Na przykład współczynnik równy 0,9 dla socjologów i ekonomistów oznacza silną korelację, a dla fizyków posługujących się wysokiej klasy pomiarami przy badaniu praw przyrody oznacza korelację słabą[2]. Z drugiej strony poziom korelacji ma wpływ na czas życia korelacji[1].

Ograniczenia stosowalności

Zobacz też

Przypisy

  1. a b A. Buda, A. Jarynowski (2010), Life-time of correlations and its applications vol. 1, Wydawnictwo Niezależne: 5–21, December 2010, ISBN 978-83-915272-9-0.
  2. a b Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.).
Kontrola autorytatywna (rodzaj statystyki):
  • GND: 4165345-2
Encyklopedia internetowa: