Spearmans rangcorrelatiecoëfficiënt

Spearmans rangcorrelatiecoëfficiënt, of kortweg Spearmans ρ (rho), is in de statistiek de correlatiecoëfficiënt gebaseerd op de rangnummers van de data in plaats van op de data zelf. Het is daarmee een verdelingsvrije maat voor correlatie, ook geschikt voor data die slechts op ordinale schaal gemeten zijn. De coëfficiënt is genoemd naar z'n bedenker, de psychometricus Charles Spearman.

Spearmans rangcorrelatiecoëfficiënt is een eenvoudig geval van de product-momentcorrelatiecoëfficiënt van Karl Pearson, maar dan berekend voor de rangnummers ( r i ) {\displaystyle (r_{i})} en ( s i ) {\displaystyle (s_{i})} van de n {\displaystyle n} dataparen.

ρ S = i ( r i r ¯ ) ( s i s ¯ ) i ( r i r ¯ ) 2 i ( s i s ¯ ) 2 = {\displaystyle \rho _{S}={\frac {\sum _{i}(r_{i}-{\bar {r}})(s_{i}-{\bar {s}})}{{\sqrt {\sum _{i}(r_{i}-{\bar {r}})^{2}}}{\sqrt {\sum _{i}(s_{i}-{\bar {s}})^{2}}}}}=}
= i ( r i s i r ¯ s ¯ ) i ( r i r ¯ ) 2 = 1 2 i ( r i s i ) 2 + i r i 2 n r ¯ 2 i r i 2 n r ¯ 2 = {\displaystyle ={\frac {\sum _{i}(r_{i}s_{i}-{\bar {r}}{\bar {s}})}{\sum _{i}(r_{i}-{\bar {r}})^{2}}}={\frac {-{\tfrac {1}{2}}\sum _{i}(r_{i}-s_{i})^{2}+\sum _{i}r_{i}^{2}-n{\bar {r}}^{2}}{\sum _{i}r_{i}^{2}-n{\bar {r}}^{2}}}=}
= 1 i D i 2 2 ( i r i 2 n r ¯ 2 ) {\displaystyle =1-{\frac {\sum _{i}D_{i}^{2}}{2(\sum _{i}r_{i}^{2}-n{\bar {r}}^{2})}}}

Omdat

r ¯ = 1 2 ( n + 1 ) {\displaystyle {\bar {r}}={\tfrac {1}{2}}(n+1)}

en

i r i 2 = 1 6 n ( n + 1 ) ( 2 n + 1 ) {\displaystyle \sum _{i}r_{i}^{2}={\tfrac {1}{6}}n(n+1)(2n+1)} ,

volgt, in het geval dat er geen knopen zijn, de eenvoudiger formule:

ρ S = 1 6 D 2 n ( n 2 1 ) {\displaystyle \rho _{S}=1-{\frac {6\sum D^{2}}{n(n^{2}-1)}}}

waarin:

D i = r i s i {\displaystyle D_{i}=r_{i}-s_{i}}

Knopen

Als er onder de waarden van de variabelen gelijke voorkomen, zogenaamde knopen, kan de bovenstaande formule niet gebruikt worden. Elke waarde in een knoop krijgt een aangepast rangnummer als het gemiddelde rangnummer in de knoop. Spearmans rho is in dat geval de product-momentcorrelatiecoëfficiënt berekend voor de aangepaste rangnummers.

ρ S = 1 6 n ( n 2 1 ) i D i 2 1 2 ( T X + T Y ) ( 1 T X ) ( 1 T Y ) {\displaystyle \rho _{S}={\frac {1-{\frac {6}{n(n^{2}-1)}}\sum _{i}D_{i}^{2}-{\tfrac {1}{2}}(T_{X}+T_{Y})}{\sqrt {\left(1-T_{X}\right)\left(1-T_{Y}\right)}}}}

Daarin is, voor de X-waarden, en ook voor de Y-waarden:

T = 1 n ( n 2 1 ) k t k ( t k 2 1 ) {\displaystyle T={\tfrac {1}{n(n^{2}-1)}}\sum _{k}t_{k}(t_{k}^{2}-1)} ,

met t k {\displaystyle t_{k}} het aantal waarnemingen in de betrokken steekproef met hetzelfde rangnummer.

Voorbeeld

waarden
X
waarden
Y
rangnr.
X
rangnr.
Y
verschil
D
D2   t X {\displaystyle t_{X}}   t X ( t X 2 1 ) {\displaystyle \scriptstyle t_{X}^{\,}(t_{X}^{2}-1)}   t Y {\displaystyle t_{Y}}   t Y ( t Y 2 1 ) {\displaystyle \scriptstyle t_{Y}^{\,}(t_{Y}^{2}-1)}
2,0 1,5 1 −1½ 2,25 1 0 2 6
3,0 1,5 0 0 2 6
3,0 4,0 5 −2½ 6,25 1 0
5,0 3,0 4 4 0 0 1 0 1 0
5,5 1,0 5 1 4 16 1 0 1 0
8,0 5,0 6 0,25 1 0 2 6
10,0 5,0 1 1 2 6
10,0 9,5 8 0,25 1 0
totalen 26   12   12

Het aantal waarnemingsparen is n = 8 {\displaystyle n=8} , dus

n ( n 2 1 ) = 504 {\displaystyle n(n^{2}-1)=504}

en

T X = T Y = 12 / 504 = 0,023 8 {\displaystyle T_{X}=T_{Y}=12/504=0{,}0238} .

Voor Spearmans rho vinden we:

ρ S = 1 6 × 26 / 504 0,023 8 0,976 = 0 , 68 {\displaystyle \rho _{S}={\frac {1-6\times 26/504-0{,}0238}{0{,}976}}=0{,}68}