Rangkorreláció

A rangkorreláció vagy rangkorrelációs együttható a valószínűségszámításban valószínűségi változók közötti kapcsolatot vizsgál a korrelációhoz hasonlóan. Az összefüggést tetszőleges monoton függvény szerint képes vizsgálni, eloszlásuk vizsgálata nélkül.

A korrelációval szemben a rangkorreláció nemcsak lineáris kapcsolatot tud leírni, továbbá a kilógó adatok sem zavarják.

Közelebbről két rangkorrelációs együtthatót használnak: az egyik a Spearman-rhó, a másik a Kendall-tau. Több megfigyelő észlelései közötti összefüggés vizsgálatára alkalmas a W konkordanciaegyüttható.

Számítása

N {\displaystyle N} mérésből álló párral kezdünk, jelölje ezeket ( x i , y i ) {\displaystyle (x_{i},y_{i})} . A rangkorreláció minden x i {\displaystyle x_{i}} értékhez relatívan meghatároz egy ragot a többi x j {\displaystyle x_{j}} értékkel szemben, azaz hozzárendel egy számot 1 , 2 , 3 , , N {\displaystyle 1,2,3,\dots ,N} közül. Ezután kezelhetők ezek a számok úgy, mintha egyenletes eloszlásból származnának. Ha minden x i {\displaystyle x_{i}} különböző, akkor minden szám egyszer fordul elő. Ha vannak köztük egyenlőek, akkor a középső értéket kapják, mint amit akkor rendelnének hozzájuk, ha mind különbözőek lennének. Ekkor kapcsolatokról, vagy döntetlenekről beszélnek.[1] Ez a szám lehet egész, vagy félegész. Mindkét esetben a számok összege ugyanannyi, azaz 1-től N {\displaystyle N} -ig, vagyis N ( N + 1 ) / 2 {\displaystyle N(N+1)/2} .

Ugyanezt elvégzik az y i {\displaystyle y_{i}} értékekkel is, mindegyiket az y j {\displaystyle y_{j}} -kkel szembeni rangjával helyettesítik.

Az intervallumskálázott adatok helyettesítésével információt vesztünk, számítása azonban értelmes lehet robosztussága miatt. Ez azt jelenti, hogy kevésbé érzékeny a kilógó adatokra és a hibákra, ahogy a medián is kevésbé érzékeny ezekre, mint az átlag. Rangsorok közötti kapcsolat felderítésében a rangkorrelációnak nincs alternatívája.

Spearman-rangkorreláció

A Spearman-rangkorrelációt Charles Spearman után nevezték el, és gyakran a ρ betűvel illetve r s {\displaystyle r_{s}} -sel jelölik.

Elméletben ρ a Pearson szorzat-momentum-korreláció speciális esete, ahol az adatokat ranggá konvertálják, mielőtt kiszámítják a rangkorrelációt:

r s = i ( r g ( x i ) r g ¯ x ) ( r g ( y i ) r g ¯ y ) i ( r g ( x i ) r g ¯ x ) 2 i ( r g ( y i ) r g ¯ y ) 2 = 1 n i ( r g ( x i ) r g ( y i ) ) r g x r g y ¯ s r g x s r g y = Cov ( r g x , r g y ) s r g x s r g y . {\displaystyle r_{s}={\frac {\sum _{i}(rg(x_{i})-{\overline {rg}}_{x})(rg(y_{i})-{\overline {rg}}_{y})}{{\sqrt {\sum _{i}(rg(x_{i})-{\overline {rg}}_{x})^{2}}}{\sqrt {\sum _{i}(rg(y_{i})-{\overline {rg}}_{y})^{2}}}}}={\frac {{\frac {1}{n}}\sum _{i}(rg(x_{i})rg(y_{i}))-{\overline {rg_{x}rg_{y}}}}{s_{rg_{x}}s_{rg_{y}}}}={\frac {\operatorname {Cov} (rg_{x},rg_{y})}{s_{rg_{x}}s_{rg_{y}}}}.}

Ahol

r g ( x i ) {\displaystyle rg(x_{i})} az x i {\displaystyle x_{i}} rangja,
r g ¯ x {\displaystyle {\overline {rg}}_{x}} az x {\displaystyle x} rangjainak középértéke,
s r g x {\displaystyle s_{rg_{x}}} az x {\displaystyle x} rangjainak tapasztalati szórása,
Cov ( r g ( x ) , r g ( y ) ) {\displaystyle \operatorname {Cov} (rg(x),rg(y))} r g ( x ) {\displaystyle rg(x)} és r g ( y ) {\displaystyle rg(y)}

kovarianciája.

Speciális esetek

A gyakorlatban inkább egy egyszerűbb képletet használnak, ami akkor ad helyes eredményt, ha minden rang különbözik.

A nyers adatokat konvertálják, és minden párra kiszámítják a d i {\displaystyle d_{i}} különbséget, jelben d i = r g ( x i ) r g ( y i ) {\displaystyle d_{i}=rg(x_{i})-rg(y_{i})} . Ezzel a ρ

r s = 1 6 i d i 2 n ( n 2 1 ) , {\displaystyle r_{s}=1-{\frac {6\sum _{i}d_{i}^{2}}{n\cdot (n^{2}-1)}},}

ahol n {\displaystyle n} az értékpárok száma.

Ellenben ha vannak egyező értékek, ez a képlet nem ad pontos eredményt, de ha nem sok helyen azonosak az értékek, akkor az eltérés kicsi. A pontos eredményt egy bonyolultabb képlet adja:[2]

r s = n 3 n 1 2 T x 1 2 T y 6 i d i 2 ( n 3 n T x ) ( n 3 n T y ) {\displaystyle r_{s}={\frac {n^{3}-n-{\frac {1}{2}}T_{x}-{\frac {1}{2}}T_{y}-6\sum _{i}d_{i}^{2}}{\sqrt {\left(n^{3}-n-T_{x}\right)\left(n^{3}-n-T_{y}\right)}}}}

ahol T = k ( t , k 3 t , k ) {\displaystyle \textstyle T_{\bullet }=\sum _{k}(t_{\bullet ,k}^{3}-t_{\bullet ,k})} .; t , k {\displaystyle t_{\bullet ,k}} az azonos rangú megfigyelések száma, továbbá {\displaystyle \bullet } X {\displaystyle X} vagy Y {\displaystyle Y} helyett áll.

Példák

Első példa

Például vizsgáljuk különböző emberek magasságát és testsúlyát. A magasságok 175 cm, 178 cm és 190 cm; a testsúlyok rendre 65 kg, 70 kg és 98 kg.

Ebben az esetben maximális rangkorreláció adódik, mivel a legkisebb ember a legkönnyebb és a legnagyobb ember a legnehezebb. Ha fordítva lenne, akkor a rangkorreláció is kicsi lenne. A rangkorreláció számszerűen fejezi ki az összefüggést két rangsor között.

Második példa

Adva legyenek megfigyelések két változóról, a-ról és b-ről:

i 1 2 3 4 5 6 7 8
a i {\displaystyle a_{i}} 2,0 3,0 3,0 5,0 5,5 8,0 10,0 10,0
b i {\displaystyle b_{i}} 1,5 1,5 4,0 3,0 1,0 5,0 5,0 9,5

A rangok meghatározására rendezik az értékeket, és normálják, azaz egyező értékek esetén középértéket vesznek. Ezután helyreállítják az eredeti sorrendet, hogy képezhessék a különbségeket.

Bemenet Rendezés(érték) Rang Rendezés(index)
Index Érték 1 1 , 5 2 1 , 5 3 4 , 0 4 3 , 0 5 1 , 0 6 5 , 0 7 5 , 0 8 9 , 5 {\displaystyle {\begin{array}{c|c}{\text{Index}}&{\text{Érték}}\\\hline 1&1{,}5\\2&1{,}5\\3&4{,}0\\4&3{,}0\\5&1{,}0\\6&5{,}0\\7&5{,}0\\8&9{,}5\\\end{array}}} Index Érték 5 1 , 0 1 1 , 5 2 1 , 5 4 3 , 0 3 4 , 0 6 5 , 0 7 5 , 0 8 9 , 5 {\displaystyle {\begin{array}{c|c}{\text{Index}}&{\text{Érték}}\\\hline 5&1{,}0\\1&1{,}5\\2&1{,}5\\4&3{,}0\\3&4{,}0\\6&5{,}0\\7&5{,}0\\8&9{,}5\\\end{array}}} Index Érték Rang Normálva 5 1 , 0 1 1 1 1 , 5 2 ( 2 + 3 ) / 2 2 1 , 5 3 = 2 , 5 4 3 , 0 4 4 3 4 , 0 5 5 6 5 , 0 6 ( 6 + 7 ) / 2 7 5 , 0 7 = 6 , 5 8 9 , 5 8 8 {\displaystyle {\begin{array}{c|c|c||c}{\text{Index}}&{\text{Érték}}&{\text{Rang}}&{\text{Normálva}}\\\hline 5&1{,}0&1&1\\\hline 1&1{,}5&2&(2+3)/2\\2&1{,}5&3&=2{,}5\\\hline 4&3{,}0&4&4\\\hline 3&4{,}0&5&5\\\hline 6&5{,}0&6&(6+7)/2\\7&5{,}0&7&=6{,}5\\\hline 8&9{,}5&8&8\\\end{array}}} Index Érték Normált rang 1 1 , 5 2 , 5 2 1 , 5 2 , 5 3 4 , 0 5 , 0 4 3 , 0 4 , 0 5 1 , 0 1 , 0 6 5 , 0 6 , 5 7 5 , 0 6 , 5 8 9 , 5 8 , 0 {\displaystyle {\begin{array}{c|c|c}{\text{Index}}&{\text{Érték}}&{\text{Normált rang}}\\\hline 1&1{,}5&2{,}5\\2&1{,}5&2{,}5\\3&4{,}0&5{,}0\\4&3{,}0&4{,}0\\5&1{,}0&1{,}0\\6&5{,}0&6{,}5\\7&5{,}0&6{,}5\\8&9{,}5&8{,}0\\\end{array}}}

Az adatokból a következő köztes eredmény adódik:

a értékei b értékei a rangjai b rangjai d = R g ( a ) R g ( b ) {\displaystyle d=Rg(a)-Rg(b)} ( R g ( a ) R g ( b ) ) 2 {\displaystyle (Rg(a)-Rg(b))^{2}}
2,0 1,5 1,0 2,5 −1,5 2,25
3,0 1,5 2,5 2,5 0,0 0,00
3,0 4,0 2,5 5,0 −2,5 6,25
5,0 3,0 4,0 4,0 0,0 0,00
5,5 1,0 5,0 1,0 4,0 16,00
8,0 5,0 6,0 6,5 −0,5 0,25
10,0 5,0 7,5 6,5 1,0 1,00
10,0 9,5 7,5 8,0 −0,5 0,25
        = 26 {\displaystyle \sum =26}

A táblázat a értékei szerint vannak rendezve. Fontos, hogy az értékekhez rangok legyenek rendelve. A sorban kétszer jelenik meg a 3 érték, rangjuk az átlagos (2+3)/2 = 2,5. Ugyanez történik a b adatsornál is.

Werte von a Werte von b t a , k {\displaystyle t_{a,k}} t a , k 3 t a , k {\displaystyle t_{a,k}^{3}-t_{a,k}} t b , k {\displaystyle t_{b,k}} t b , k 3 t b , k {\displaystyle t_{b,k}^{3}-t_{b,k}}
2,0 1,5 1 0 2 6
3,0 1,5 2 6 - -
3,0 4,0 - - 1 0
5,0 3,0 1 0 1 0
5,5 1,0 1 0 1 0
8,0 5,0 1 0 2 6
10,0 5,0 2 6 - -
10,0 9,5 - - 1 0
    T a = 12 {\displaystyle T_{a}=12} T b = 12 {\displaystyle T_{b}=12}

A Horn-korrekcióval

r s = 8 3 8 6 6 6 26 ( 8 3 8 12 ) ( 8 3 8 12 ) = 336 492 0,682 9. {\displaystyle r_{s}={\frac {8^{3}-8-6-6-6\cdot 26}{\sqrt {\left({8^{3}-8}-12\right)\left(8^{3}-8-12\right)}}}={\frac {336}{492}}\approx 0{,}6829.}

adódik.

A szignifikancia meghatározása

Teszt szempontjából a ρ {\displaystyle \rho } érték vizsgálata, hogy nullától különbözik-e, permutációteszt. Kiszámítják annak a valószínűségét is, hogy ρ {\displaystyle \rho } értéke legalább akkora-e, mint ahogy azt a nullhipotézis megjósolja.

Ezt a módszert használhatják viszonylag kis adathalmazokon, amiken egyszerűen létrehozhatók a nullhipotézist valószínűsítő permutációk.

Kendall-tau

Szemben a Spearman-rhóval, a Kendell-tau a rangok közötti különbséget használja fel. Rendszerint a τ {\displaystyle \tau } értéke kisebb, mint a ρ {\displaystyle \rho } értéke. A τ {\displaystyle \tau } együtthatót érdemes intervallumskálázott adatokra használni, ha nem normális eloszlásúak, a skálák egyenetlen beosztásúak vagy a szúrópróba mérete kicsi.

Kiszámítása

A τ {\displaystyle \tau } számításához tekintjük az x {\displaystyle x} szerint rendezett ( x i , y i ) {\displaystyle (x_{i},y_{i})} és ( x j , y j ) {\displaystyle (x_{j},y_{j})} párokat, ahol i = 1 , , n 1 {\displaystyle i=1,\ldots ,n-1} és j = i + 1 , , n {\displaystyle j=i+1,\ldots ,n} ; továbbá

x 1 x 2 x n . {\displaystyle x_{1}\leq x_{2}\leq \ldots \leq x_{n}.}

Az első párt az összes többivel összehasonlítjuk, a második párt az első kivételével mindegyikkel, és így tovább, az utolsót nem hasonlítjuk össze egyikkel sem. Tehát n ( n 1 ) / 2 {\displaystyle n(n-1)/2} páronkénti összehasonlítást végzünk.

A következőket állapítjuk meg a párokról:

  • Ha x i < x j {\displaystyle x_{i}<x_{j}} és y i < y j {\displaystyle y_{i}<y_{j}} , akkor konkordáns.
  • Ha x i < x j {\displaystyle x_{i}<x_{j}} és y i > y j {\displaystyle y_{i}>y_{j}} , akkor diszkordáns.
  • Ha x i x j {\displaystyle x_{i}\neq x_{j}} és y i = y j {\displaystyle y_{i}=y_{j}} , akkor kötés van Y {\displaystyle Y} -ban.
  • Ha x i = x j {\displaystyle x_{i}=x_{j}} és y i y j {\displaystyle y_{i}\neq y_{j}} , akkor kötés van X {\displaystyle X} -ben.
  • Ha x i = x j {\displaystyle x_{i}=x_{j}} és y i = y j {\displaystyle y_{i}=y_{j}} , akkor kötés van X {\displaystyle X} -ben és Y {\displaystyle Y} -ban.

Megszámoljuk a különböző párokat:

  • A konkorodánsok száma C {\displaystyle C} ,
  • a diszkordánsok száma D {\displaystyle D} ,
  • az Y {\displaystyle Y} -beli kötések száma T Y {\displaystyle T_{Y}} ,
  • az X {\displaystyle X} -beli kötések száma T X {\displaystyle T_{X}} , és
  • az X {\displaystyle X} -beli és Y {\displaystyle Y} -beli kötések száma T X Y {\displaystyle T_{XY}} .

A Kendall- τ {\displaystyle \tau } a konkordáns és a diszkordáns párok számát hasonlítja össze:

τ = C D ( C + D + T X ) ( C + D + T Y ) {\displaystyle \tau ={\frac {C-D}{\sqrt {(C+D+T_{X})\cdot (C+D+T_{Y})}}}}

Ha τ {\displaystyle \tau } pozitív, akkor több konkordáns pár van, mint diszkordáns. Ami azt jelenti, hogy ha x i x j {\displaystyle x_{i}\leq x_{j}} , akkor valószínűbb, hogy y i y j {\displaystyle y_{i}\leq y_{j}} . Ha negatív, akkor a diszkordáns párokból van több, vagyis ha x i x j {\displaystyle x_{i}\leq x_{j}} , akkor az a valószínűbb, hogy y i y j {\displaystyle y_{i}\geq y_{j}} . Az ( C + D + T X ) ( C + D + T Y ) {\displaystyle {\sqrt {(C+D+T_{X})\cdot (C+D+T_{Y})}}} normálja a Kendall- τ {\displaystyle \tau } értékét, így

1 τ + 1. {\displaystyle -1\leq \tau \leq +1.}

Tesztben

Tekintve egy T {\displaystyle \mathrm {T} } valószínűségi változót, Kendall belátta, hogy ha a tesztben

H 0 : τ = 0 {\displaystyle H_{0}:\tau =0} vs. H 1 : τ 0 {\displaystyle H_{1}:\tau \neq 0} ,

akkor a nullhipotézis teljesülése esetén eloszlása approximatívan normális: T N ( 0 ; 4 n + 10 9 n ( n 1 ) ) {\displaystyle \mathrm {T} \sim {\mathcal {N}}\left(0;{\frac {4n+10}{9n(n-1)}}\right)} . Az approximációs tezt mellett permutációteszt is végezhető.

További tau együtthatók

Kendall a fent definiált számértékek felhasználásával további három τ {\displaystyle \tau } együtthatót definiált:

Kendall- τ a = C D n ( n 1 ) / 2 {\displaystyle {\text{Kendall-}}\tau _{a}={\frac {C-D}{n(n-1)/2}}}
Kendall- τ b = C D C + D + T x C + D + T y {\displaystyle {\text{Kendall-}}\tau _{b}={\frac {C-D}{{\sqrt {C+D+T_{x}}}{\sqrt {C+D+T_{y}}}}}} (lűsd fenn)
Kendall- τ c = 2 m ( C D ) ( m 1 ) n 2 {\displaystyle {\text{Kendall-}}\tau _{c}={\frac {2m(C-D)}{(m-1)n^{2}}}}

A τ a {\displaystyle \tau _{a}} csak akkor alkalmazható, ha nincsenek kötések. A τ b {\displaystyle \tau _{b}} nem négyzetes kontingenciatáblákon nem érheti el a + 1 {\displaystyle +1} illetve 1 {\displaystyle -1} szélsőértékeket. Nem veszi figyelembe az X {\displaystyle X} -ben és Y {\displaystyle Y} -ban levő kötéseket. Négypróbás tesztekben τ b {\displaystyle \tau _{b}} egyezik a Φ {\displaystyle \Phi } együtthatókkal, és ha két, csak 0 és 1 értékeket felvevő valószínűségi változókat vizsgálunk, akkor a Pearson-korrelációval is.

Tetra- és polichorikus korreláció

A Likert-skálával kapcsolatban gyakran tetra- illetve polichorikus korrelációt számolnak. A tetrachorikus korrelációt bináris adatokhoz használják. Az alaphipotézis az, hogy a válaszadók valamilyen mérték szerint adtak választ arra, hogy szerintük mi mennyire teljesül rájuk.

A megfigyelt X i {\displaystyle X_{i}\,} ordinális változók mögött többnyire X i {\displaystyle X_{i}^{*}} folytonos változók állnak. A nem megyfigyelt változók közötti kapcsolatot tetra- és polichorikus korrelációk fejezik ki.

Használata akkor javallott, ha a Likert-itemek esetén kevesebb, mint hét.[3] A gyakorlatban ehelyett a Bravais-Pearson-korrelációval dolgoznak, ám megmutatható, hogy ezzel alábecsülik a korrelációt.[4]

Becslési módszerek

Feltéve, hogy a X i {\displaystyle X_{i}^{*}} valószínűségi változók páronként kétváltozós normális eloszlásúak, a maximum-likelihood-módszerrel becsülhető a meg nem figyelt valószínűségi változók közötti korreláció. Ennek két módja van:

Egylépéses módszer: Az ismeretlen korreláció és az ismeretlen intervallumhatárok a maximum-likelihood-függvény paraméterei; azaz egyetlen lépésben becslik őket.

Kétlépéses módszer: Először az intervallumhatárokat becslik azzal a feltevéssel, hogy az X i {\displaystyle X_{i}^{*}} változók eloszlása normális. A második lépésben kerül sor a korrelációra.

A tetrachorikus korreláció approximációs képlete

X 1 {\displaystyle X_{1}} \ X 2 {\displaystyle X_{2}} 0 1
0 n 00 {\displaystyle n_{00}} n 10 {\displaystyle n_{10}}
1 n 01 {\displaystyle n_{01}} n 11 {\displaystyle n_{11}}

Két bináris változó esetén a tetrachorikus korreláció közelíthető úgy, mint

r t e t = cos ( π 1 + n 00 n 11 n 01 n 10 ) {\displaystyle r_{tet}=\cos \left({\frac {\pi }{1+{\sqrt {\frac {n_{00}n_{11}}{n_{01}n_{10}}}}}}\right)}

ahol a jelölések a jobb oldalon látható kereszttáblázat szerintiek.

Egy r t e t = 1 {\displaystyle r_{tet}=-1} korreláció pontosan akkor fordul elő, ha n 00 = n 11 = 0 {\displaystyle n_{00}=n_{11}=0} . Hasonlóan, a r t e t = + 1 {\displaystyle r_{tet}=+1} érték pontosan akkor fordul elő, ha n 01 = n 10 = 0 {\displaystyle n_{01}=n_{10}=0} .

Jegyzetek

  1. lásd Fahrmeir et al. (2004): Statistik, S. 142
  2. Horn, D. (1942): A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 686–690.
  3. D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC
  4. K. G. Jöreskog, D. Sorbom (1988): PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville

Fordítás

Ez a szócikk részben vagy egészben a Rangkorrelationskoeffizient című német Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.