Spearmanin järjestyskorrelaatiokerroin

Spearmanin järjestyskorrelaatiokertoimeksi saadaan 1 mikäli tutkittavat kaksi muuttujaa riippuvat toisistaan monotonisesti. Spearmanin kerroin voi saada arvon 1 vaikka muuttujien välillä ei ole lineaarista riippuvuutta. Toisaalta, Pearsonin korrelaatiokerroin ei ole 1, koska tutkittavien muuttujien suhde ei ole täysin lineaarinen.
Kun parametrien välillä ei ole suuria poikkeamia, sekä Spearmanin että Pearsonin korrelaatiotesteillä saadaan yhtä suuret korrelaatiokertoimet.
Spearmanin korrelaatiokerroimeksi saatiin 0.84, kun taas Pearsonin korrelaatiokertoimeksi 0.67. Spearmanin järjestyskorrelaatio ei ole yhtä herkkä havaintoarvojen suurille poikkeamille kuin Pearsonin korrelaatio, johtuen siitä että Spearmanin korrelaatiossa havaintojen arvot korvataan järjestysluvuilla, jolloin suuret poikkeavuudet eliminoidaan.
Spearmanin jarjestyskorrelaatiokertoimen kriittiset
rajat eri merkitsevyystasoilla
n 0.1 0.05 0.025 0.01 0.005
4 1.0000 1.0000 1.0000 1.0000 1.0000
5 0.7000 0.9000 0.9000 1.0000 1.0000
6 0.6571 0.7714 0.8286 0.9429 0.9429
7 0.5714 0.6786 0.7857 0.8571 0.8929
8 0.5476 0.6429 0.7381 0.8095 0.8571
9 0.4833 0.6000 0.6833 0.7667 0.8167
10 0.4424 0.5636 0.6485 0.7333 0.7818
11 0.4182 0.5273 0.6091 0.7000 0.7545
12 0.3986 0.5035 0.5874 0.6713 0.7273
13 0.3791 0.4780 0.5604 0.6484 0.6978
14 0.3670 0.4593 0.5385 0.6220 0.6747
15 0.3500 0.4429 0.5179 0.6000 0.6536
16 0.3382 0.4265 0.5029 0.5824 0.6324
17 0.3271 0.4124 0.4821 0.5577 0.6055
18 0.3170 0.4000 0.4683 0.5425 0.5897
19 0.3077 0.3887 0.4555 0.5285 0.5751
20 0.2992 0.3783 0.4438 0.5155 0.5614
21 0.2914 0.3687 0.4329 0.5034 0.5487
22 0.2841 0.3598 0.4227 0.4921 0.5368
23 0.2774 0.3515 0.4132 0.4815 0.5256
24 0.2711 0.3438 0.4044 0.4716 0.5151
25 0.2653 0.3365 0.3961 0.4622 0.5052
26 0.2598 0.3297 0.3882 0.4534 0.4958
27 0.2546 0.3233 0.3809 0.4451 0.4869
28 0.2497 0.3172 0.3739 0.4372 0.4785
29 0.2451 0.3115 0.3673 0.4297 0.4705
30 0.2407 0.3061 0.3610 0.4226 0.4629

Spearmanin järjestyskorrelaatiokerroin, eli Spearmanin rho, on ei-parametrinen (jakaumasta riippumaton) tilastollisen riippuvuuden mitta, jota käytetään tutkittavien muuttujien välisen korrelaation mittaamiseen. Tunnusluku on saanut nimensä kehittäjänsä Charles Spearmanin mukaan.

Spearmanin järjestyskorrelaatiokerroin ei reagoi parametrien suuriin poikkeamiin yhtä voimakkaasti kuin esimerkiksi Pearsonin korrelaatiotesti. Spearmanin korrelaatiotestissä täydellistä positiivista korrelaatiota vastaa luku 1 ja täydellistä negatiivista korrelaatiota luku -1. [1]

Määritelmä

Spearmanin järjestyskorrelaatiokertoimen laskemiseksi tarvitaan jokin havaintoaineisto. Olkoon tutkittavina muuttujina x {\displaystyle x} ja y {\displaystyle y} satunnaismuuttujia, joiden havainnot ovat toisistaan riippumattomia. Tällöin havaintoaineisto koostuu muuttujan x havaittujen arvojen x 1 , x 2 , . . . , x n {\displaystyle x_{1},x_{2},...,x_{n}} ja vastaavasti muuttujan y havaittujen arvojen y 1 , y 2 , . . . , y n {\displaystyle y_{1},y_{2},...,y_{n}} muodostamista pareista ( x i , y i ) = 1 , 2 , . . . , n {\displaystyle (x_{i},y_{i})=1,2,...,n} .

Muuttujien havaitut arvot järjestetään suuruusjärjestykseen pienimmästä suurimpaan ja arvoihin liitetään järjestysnumerot:

R ( x i ) {\displaystyle R(x_{i})} = havainnon x i {\displaystyle x_{i}} järjestysnumero
R ( y i ) {\displaystyle R(y_{i})} = havainnon y i {\displaystyle y_{i}} järjestysnumero [2]

Jos keskenään yhtäsuuria havaintoja ei ole ja järjestysluvut ovat täten kaikki erillisiä kokonaislukuja, niin Spearmanin järjestyskorrelaatiokerroin lasketaan kaavalla

ρ = 1 6 d i 2 ( n 2 1 ) n {\displaystyle \rho ={1-{\frac {6\sum d_{i}^{2}}{(n^{2}-1)n}}}}

missä d i = R ( x i ) R ( y i ) {\displaystyle d_{i}=R(x_{i})-R(y_{i})} . [2]

Spearmanin järjestyskorrelaatiokerroin, ρ {\displaystyle \rho } , voi saada arvoja väliltä +1 ja -1. Kertoimen arvon ollessa lähellä arvoa +1 muuttujien välillä vallitsee voimakas positiivinen riippuvuus. Tämä tarkoittaa, että toisen muuttujan arvon kasvaessa myös toisen muuttujan arvo kasvaa. Vastaavasti korrelaatiokertoimen arvon ollessa lähellä arvoa -1 vallitsee muuttujien välillä voimakas negatiivinen riippuvuus. Tällöin toisen muuttujan arvon kasvaessa toisen muuttujan arvo pienenee. Korrelaatiokertoimen arvon lähestyessä arvoa 0 muuttujien keskinäinen riippuvuus vähenee. Kertoimen arvo 0 merkitsee, ettei lineaarista riippuvuutta ole. [3]

Täytyy muistaa, että Spearmanin järjestyskorrelaatiokerrointa, kuten muitakin korrelaatioanalyysin mittoja, käytetään pääasiassa mittaamaan kahden eri muuttujan lineaarisen yhteyden voimakkuutta. Se ei siis kerro selitettävän ja selittävän muuttujien välisestä kausaalisesta yhteydestä.

Merkitsevyyden testaaminen

Tilastollisen merkitsevyystason testaamisella pyritään tutkimaan ja mahdollisesti sulkemaan pois sattuman vaikutus kahden muuttujan väliseen riippuvuuteen. Korrelaatiokertoimen p-arvo, eli todennäköisyys havaita vähintään näin poikkeavia testisuureen arvoja nollahypoteesin ollessa totta, voidaan laskea seuraavan testisuureen avulla. [4]


t = ρ n 2 1 ρ 2 {\displaystyle t=\rho {\sqrt {\frac {n-2}{1-\rho ^{2}}}}}

missä t {\displaystyle t} noudattaa Studentin t-jakaumaa vapausastein n 2 {\displaystyle n-2} . [4]

Esimerkki

Olkoon, että halutaan tutkia erään kalalajin massan yhteyttä sen pituuteen, eli korreloiko kalan massa sen pituuteen. Alla olevaan taulukkoon on kerätty satunnaisesti havaintoaineisto, joka koostuu kymmenestä massan ja pituuden muodostamista pareista.

Massa (g), x i {\displaystyle x_{i}} Pituus (cm), y i {\displaystyle y_{i}}
70 17
120 22
90 20
140 23
120 24
110 22
100 20
90 19
100 21
80 16

Seuraavaksi tulee järjestää jokaisen sarakkeen tutkimusaineisto pienimmästä luvusta suurimpaan ja antaa jokaiselle vastaava järjestysluku. Sarakkeen x i {\displaystyle x_{i}} viereen luodaan uusi sarake R ( x i ) {\displaystyle R(x_{i})} , johon tulee havainnon x i {\displaystyle x_{i}} järjestysnumero. Vastaavasti sarakkeen y i {\displaystyle y_{i}} havaintojen järjestysnumeroille luodaan sarake R ( y i ) {\displaystyle R(y_{i})} . Mikäli kahden tai useamman aineiston järjestysluku on sama, tällöin niille tulee antaa niiden varaamien järjestyslukujen keskiarvo. Taulukossa nähdään, että x i {\displaystyle x_{i}} -sarakkeessa luku 90 toistuu kahdesti. Luku 90 on kyseisessä sarakkeessa kolmanneksi pienin luku, mutta koska se toistuu kahdesti, se on varannut sijat 3 ja 4. Tällöin tulee luvulle 90 annetaan järjestysluvuksi järjestyslukujen 3 ja 4 keskiarvo. Samoten luku 100 on toistunut kahdesti. Koska se on varannut sijat 5 ja 6, tulee sen järjestysluvuksi 5.5. Sama tapa on toistettu muiden toistuvien lukujen tapauksessa. Mikäli luku toistuu kolmesti, järjestysluvuksi annetaan tällöin sen kolmen varaaman sijan keskiarvo. [5]

Massa (g), x i {\displaystyle x_{i}} Pituus (cm), y i {\displaystyle y_{i}} R ( x i ) {\displaystyle R(x_{i})} R ( y i ) {\displaystyle R(y_{i})}
70 17 1 2
120 22 8.5 7.5
90 20 3.5 4.5
140 23 10 9
120 24 8.5 10
110 22 7 7.5
100 20 5.5 4.5
90 19 3.5 3
100 21 5.5 6
80 16 2 1

Lopuksi täytyy vielä laskea järjestyslukujen erotus d i = R ( x i ) R ( y i ) {\displaystyle d_{i}=R(x_{i})-R(y_{i})} . Luodaan uusi sarake d i {\displaystyle d_{i}} , johon tulee jokaisen rivin järjestyslukujen erotus, sekä myös sarake d i 2 {\displaystyle d_{i}^{2}} , jossa erotus korotetaan toiseen.

Massa (g), x i {\displaystyle x_{i}} Pituus (cm), y i {\displaystyle y_{i}} R ( x i ) {\displaystyle R(x_{i})} R ( y i ) {\displaystyle R(y_{i})} d i {\displaystyle d_{i}} d i 2 {\displaystyle d_{i}^{2}}
70 17 1 2 -1 1
120 22 8.5 7.5 1 1
90 20 3.5 4.5 -1 1
140 23 10 9 1 1
120 24 8.5 10 -1.5 2.25
110 22 7 7.5 -0.5 0.25
100 20 5.5 4.5 1 1
90 19 3.5 3 0.5 0.25
100 21 5.5 6 -0.5 0.25
80 16 2 1 1 1

Summaamalla sarakkeen d i 2 {\displaystyle d_{i}^{2}} kaikki alkiot yhteen saadaan,

d i 2 = 1 + 1 + 1 + 1 + 2.25 + 0.25 + 1 + 0.25 + 0.25 + 1 = 9 {\displaystyle \sum d_{i}^{2}=1+1+1+1+2.25+0.25+1+0.25+0.25+1=9}

Nyt voidaan laskea Spearmanin järjestyskorrelaatiokerroin,

ρ = 1 6 d i 2 ( n 2 1 ) n = 1 6 9 ( 10 2 1 ) 10 = 1 54 990 0.945 {\displaystyle \rho ={1-{\frac {6\sum d_{i}^{2}}{(n^{2}-1)n}}}={1-{\frac {6\cdot 9}{(10^{2}-1)10}}}={1-{\frac {54}{990}}}\approx 0.945}

Saatiin siis Spearmanin järjestyskorrelaatiokertoimeksi ρ 0.945 {\displaystyle \rho \approx 0.945} . Voidaan sanoa, että tämän kalalajin massan ja pituuden välillä vallitsee voimakas positiivinen korrelaatio, eli pituuden kasvaessa myös massa kasvaa.

Testataan seuraavaksi saatua korrelaatiokerrointa 5%:n merkitsevyystasolla. Olkoon nollahypoteesi H 0 {\displaystyle H_{0}} , että pituuden ja massan välillä ei ole riippuvuutta. Vaihtoehtoisena hypoteesina H 1 {\displaystyle H_{1}} olkoon, että pituuden ja massan välillä on korrelaatio, oli se sitten positiivinen tai negatiivinen. Tällöin vaihtoehtoinen hypoteesi on kaksisuuntainen. Eli asetelma on

H 0 : ρ = 0 {\displaystyle H_{0}:\rho =0}
H 1 : ρ 0 {\displaystyle H_{1}:\rho \neq 0}

Lasketaan testisuure,

t = ρ n 2 1 ρ 2 = 0.945 10 2 1 0.945 2 8.17 {\displaystyle t=\rho {\sqrt {\frac {n-2}{1-\rho ^{2}}}}=0.945\cdot {\sqrt {\frac {10-2}{1-0.945^{2}}}}\approx 8.17}

Testisuure t {\displaystyle t} noudattaa Studentin t-jakaumaa vapausastein n 2 {\displaystyle n-2} . Testisuuretta vastaava p-arvo lasketaan jakaumasta t ( 8 ) {\displaystyle t(8)} ja, koska vaihtoehtoinen hypoteesi on kaksisuuntainen, testisuureen arvoa vastaava p-arvo on

P r ( | t | > 8.17 ) = 2 1 P r ( t < 8.17 ) = 0.00002 {\displaystyle Pr(|t|>8.17)=2\cdot 1-Pr(t<8.17)=0.00002}

Laskettu p-arvo 0.002% on paljon pienempi kuin asetettu 5% ja tällöin nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi jää voimaan. Spearmanin järjestyskorrelaatiokertoimen merkitsevyyttä voidaan tutkia myös kriittisten arvojen avulla. Esimerkiksi kaksisuuntaisessa testissä merkitsevyystason ollessa 5% ja n=10, korrelaatiokertoimen on oltava vähintään 0.6485 jotta se jäisi voimaan. [6]

Vertailua

Spearmanin järjestyskorrelaatiokerroin on Pearsonin korrelaatiokertoimen erityistapaus. Spearmanin järjestyskorrelaatiossa mitattavien muuttujien arvot on korvattu järjestysluvuilla. Spearmanin järjestyskorrelaatio ei reagoi parametrien poikkeamille lineaarisuudesta yhtä voimakkaasti kuin Pearsonin korrelaatiotesti, koska Spearmanin järjestyskorrelaatio mittaa kahden satunnaismuuttujan välistä monotonista riippuvuutta. Pienen hajonnan omaavien muuttujien osalta molemmat korrelaatioanalyysit antavat lähes samanlaiset arvot. [1] [5]

Pearsonin korrelaatio perustuu normaalisuusoletukseen, kun taas Spearmanin järjestyskorrelaatio ei, koska se on ei-parametrinen.

Eräs toinen ei-parametrinen menetelmä on Kendallin järjestyskorrelaatiokerroin (Kendallin tau). Kun aineiston normaalisuudesta on epävarmuutta, on parempi käyttää Kendallin tai Spearmanin järjestyskorrelaatiokerrointa. Sekä Kendallin että Spearmanin järjestyskorrelaatiokerroin sopivat järjestys-, välimatka- ja suhdeasteikollisille muuttujille[2].

Lähteet

  1. a b Hauke, Jan, and Tomasz Kossowski. "Comparison of values of Pearson's and Spearman's correlation coefficients on the same sets of data." Quaestiones geographicae 30, no. 2 (2011): 87-93.
  2. a b c Mellin, Ilkka. “Tilastolliset menetelmät: Kaavat”, Teknillinen korkeakoulu, 2007
  3. Heikkilä, Tarja. "Tilastollinen tutkimus". 7 uudistettu painos. Edita Prima Oy, 2008.
  4. a b Press, William H., Brian P. Flannery, Saul A. Teukolsky, and William T. Vetterling. "Numerical recipes." (1990).
  5. a b Ilmonen, Pauliina ja Virtanen, Kai. "Tilastollisen analyysin perusteet". Kurssin MS-C2104 luentokalvot. Aalto Yliopisto, 2015.
  6. Ramsey, P. H. (1989)." Critical values for Spearman’s rank order correlation". Journal of Educational Statistics, 14(3), 245–253.