Spearman-féle rangkorreláció (r_s) – definíció, képlet és értelmezés
Ismertető a Spearman-féle rangkorrelációról: definíció, képlet (ρ = 1−6Σd²/(n(n²−1))) és gyakorlati értelmezés példákkal statisztikai elemzésekhez.
A matematikában és a statisztikában a Spearman-féle rangkorrelációs együttható a korreláció egy mérőszáma, amelyet készítőjéről, Charles Spearmanról neveztek el. Röviden a görög rho betűvel ( ρ {\displaystyle \rho } ) vagy néha r s {\displaystyle r_{s}} alakban írják.
. Ez egy olyan szám, amely megmutatja, hogy két adatsor milyen szoros kapcsolatban áll egymással. Csak olyan adatok esetében használható, amelyek sorrendbe állíthatók, például a legmagasabbtól a legalacsonyabbig.
Az r s {\displaystyle r_{s}} általános képlete ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}
.
Miért és mikor használjuk?
A Spearman-féle rangkorrelációt akkor alkalmazzuk, ha az adatok sorrendje (rangja) fontosabb, mint az eredeti mért értékek, vagy ha az adatok nem teljesítik a Pearson-féle korreláció feltételeit (pl. nem normális eloszlás, erős kiugró értékek). Jó választás, ha:
- az adatok ordinális skálán vannak (pl. versenyeredmények, elégedettségi skála),
- a kapcsolat monotón (az egyik változó növekedésével a másik is általában nő vagy csökken), de nem feltétlenül lineáris,
- vagy ha kiugró értékek/csúcsok miatt a Pearson-érzékenység problémát okozna.
A képlet magyarázata és számítási lépések
A képletben szereplő jelölések:
- n — a párok száma (minták száma),
- d — az adott párra vonatkozó rangkülönbség: d = rang(x) − rang(y),
- ∑ d² — az összes pár rangkülönbségének négyzetösszege.
Számítási lépések:
- Rendezd mindkét változót rangsorba (1 a legkisebb vagy legnagyobb, attól függően, hogyan definiálod).
- Ha kötött rangok (ties) fordulnak elő, rendelj átlagolt rangokat a kötött értékeknek.
- Minden megfigyelésre számítsd ki d = rang(x) − rang(y).
- Számítsd ki d²-nek az összegét: ∑ d².
- Helyettesítsd be a képletbe: ρ = 1 − (6 ∑ d²) / (n(n² − 1)).
Értelmezés
- ρ = +1: tökéletes monoton növekvő kapcsolat (a rangok teljesen megegyeznek).
- ρ = −1: tökéletes monoton csökkenő kapcsolat (egyik rang fordítottan arányos a másikkal).
- ρ = 0: nincs monoton kapcsolat a rangok között (nem feltétlenül jelenti a teljes függetlenséget, csak a monoton kapcsolat hiányát).
Kötött rangok (ties) kezelése
A fenti zárt képlet pontos akkor, ha nincsenek kötött rangok. Ha ugyanaz az érték többször előfordul, akkor az egyes kötött értékekhez átlagolt rangot rendelünk. Ebben az esetben az egyszerű képlet csak közelítő értéket ad; pontosabb módszer, illetve a statisztikai szoftverek általában a rangokra alkalmazott Pearson-féle korrelációt számítják ki (azaz számolják ki a Pearson korrelációt a rangokból), ami automatikusan kezeli a kötéseket.
Példa (egyszerű számítás)
Vegyük például öt számítógép árát és sebességét (egyszerűsített adat):
- Ár rangok: 1, 2, 3, 4, 5 (1 = legolcsóbb, 5 = legdrágább)
- Sebesség rangok: 1, 2, 4, 3, 5
Számítsuk ki d = ár_rang − sebesség_rang soronként, majd d²-t, és összegüket.
Például: d-értékek = (0, 0, −1, 1, 0), d² = (0, 0, 1, 1, 0), ∑ d² = 2.
Helyettesítve a képletbe: ρ = 1 − (6·2) / (5(25 − 1)) = 1 − 12 / 120 = 1 − 0.1 = 0.9. Ez erős pozitív monoton kapcsolatot jelez.
Hipotézisvizsgálat és p-érték
Gyakori feladat eldönteni, hogy a megfigyelt r_s eltér-e nullától. A nullhipotézis általában: nincs monoton kapcsolat a populációban (ρ = 0). Kisebb minta esetén pontos permutációs tesztet vagy táblázatos eloszlást használnak. Nagyobb mintákban közelítő statisztika:
- Tesztstatisztika: t ≈ r_s · sqrt((n − 2) / (1 − r_s²)), amely közelítőleg t-eloszlású n − 2 szabadságfokkal (ez az átalakítás a Pearson-teszthez hasonló elven alapul).
- Pontos p-értékekhez gyakran permutációs (véletlenítéses) tesztet alkalmaznak vagy a statisztikai csomagok pontos eloszlás alapján számítanak.
Kapcsolat a Pearson-féle korrelációval
A Spearman-féle együttható tulajdonképpen a Pearson-féle korreláció alkalmazása a rangokra. Ez azt jelenti, hogy ha mindkét változót rangokká alakítjuk, és utána kiszámítjuk a Pearson korrelációt, azt megkapjuk, ami Spearman r_s-ként ismert. Emiatt r_s érzéketlenebb a kiugró értékekre és nem feltételez lineáris kapcsolatot, csak monotonitást.
Korlátozások és jó gyakorlat
- Spearman mér egy monotón kapcsolatot, de nem ad információt arról, hogy a kapcsolat milyen mértékben lineáris vagy milyen a pontos függvénykapcsolat.
- Ha sok kötött rang van, az értelmezés és a p-értékek pontosítása fontos; érdemes statisztikai szoftvert használni.
- Mindig ábrázold az adatokat (pl. szórásdiagram rangokkal vagy eredeti értékekkel), hogy lásd a kapcsolat jellegét és az esetleges kiugrókat.
Összefoglalás
A Spearman-féle rangkorreláció hasznos, egyszerű és robusztus eszköz a kétváltozós monoton összefüggések vizsgálatára, különösen akkor, ha az adatok ordinálisak, nem normális eloszlásúak, vagy kiugró értékek vannak. A képlet könnyen alkalmazható kis mintákra, kötött rangok esetén azonban érdemes a rangokra számított Pearson-korrelációt vagy pontosabb módszereket alkalmazni.
Ha szeretnéd, elvégezhetek egy részletes számítást egy konkrét adathalmazon (például a számítógépek ára és sebessége), és megmutatom a teljes lépésenkénti eljárást táblázatos formában is.
Megoldani a dolgot
Első lépés
Az r s {\displaystyle r_{s}} kiszámításához először is rangsorolnia kell az egyes adatokat. A számítógépek és sebességük bevezetőjéből vett példát fogjuk használni.
Tehát a legalacsonyabb árú számítógép kerülne az 1. helyre. Az ennél magasabb rangú a 2. helyen állna. Ezután felfelé halad, amíg az összes rangsorolva nem lesz. Ezt mindkét adatsorral meg kell tennie.
| Ár ($) | R a n k 1 {\displaystyle Rank_{1}} | Sebesség (GHz) | R a n k 2 {\displaystyle Rank_{2}} | |
| A | 200 | 1 | 1.80 | 2 |
| B | 275 | 2 | 1.60 | 1 |
| C | 300 | 3 | 2.20 | 4 |
| D | 350 | 4 | 2.10 | 3 |
| E | 600 | 5 | 4.00 | 5 |
Második lépés
Ezután meg kell találnunk a két rangsor közötti különbséget. Ezután a különbséget megszorozzuk önmagával, amit négyzetelésnek nevezünk. A különbség neve d {\displaystyle d} , és a d {\displaystyle d}
négyzetbe állításakor kapott szám neve d 2 {\displaystyle d^{2}}.
.
| R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
| 1 | 2 | -1 | 1 |
| 2 | 1 | 1 | 1 |
| 3 | 4 | -1 | 1 |
| 4 | 3 | 1 | 1 |
| 5 | 5 | 0 | 0 |
Harmadik lépés
Számolja meg, hogy mennyi adatunk van. Ezeknek az adatoknak a sorai 1-től 5-ig terjednek, tehát 5 adatunk van. Ezt a számot n-nek {\displaystyle n} nevezzük.
Negyedik lépés
Végül használjuk fel mindazt, amit eddig kidolgoztunk ebben a képletben: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}}{n(n^{2}-1)}}}} .
∑ d 2 {\displaystyle \sum d^{2}} azt jelenti, hogy a d 2 {\displaystyle d^{2}} oszlopban szereplő összes számot vesszük.
. Ez azért van így, mert ∑ {\displaystyle \sum }
azt jelenti, hogy összesen.
Tehát ∑ d 2 {\displaystyle \sum d^{2}}1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1+1}
, ami 4. A képlet szerint szorozzuk meg 6-tal, ami 24-et jelent.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} 5 × ( 25 - 1 ) {\displaystyle 5\times (25-1)}
, ami 120.
Tehát, hogy megtudjuk, hogy r s {\displaystyle r_{s}} egyszerűen csak 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}=0,8}}
.
Ezért a Spearman-féle rangkorrelációs együttható 0,8 erre az adatsorra.
Mit jelentenek a számok
r s {\displaystyle r_{s}} mindig -1 és 1 közötti választ ad. A köztük lévő számok olyanok, mint egy skála, ahol -1 nagyon erős kapcsolatot jelent, 0 nem jelent kapcsolatot, és 1 szintén nagyon erős kapcsolatot. Az 1 és -1 közötti különbség az, hogy az 1 pozitív korrelációt jelent, a -1 pedig negatív korrelációt. A -1-es r s {\displaystyle r_{s}}
értékkel rendelkező adatok grafikonja úgy nézne ki, mint az ábrán látható grafikon, kivéve, hogy a vonal és a pontok balról fentről jobbra lentre haladnának.
Például a fenti adatok esetében az r s {\displaystyle r_{s}} 0,8 volt. Ez tehát azt jelenti, hogy pozitív korreláció áll fenn. Mivel ez az érték közel van az 1-hez, ez azt jelenti, hogy a két adatsor között erős a kapcsolat. Tehát azt mondhatjuk, hogy ez a két adatsor összekapcsolódik, és együtt emelkedik. Ha -0,8 lenne, akkor azt mondhatnánk, hogy összekapcsolódnak, és ahogy az egyik felfelé megy, a másik lefelé megy.
Ha két szám azonos
Néha az adatok rangsorolásakor két vagy több olyan szám van, amely azonos. Amikor ez történik r s {\displaystyle r_{s}} , akkor az azonos rangsorok átlagát vagy átlagát vesszük. Ezeket nevezzük kötött rangsoroknak. Ehhez a kötött számokat úgy rangsoroljuk, mintha nem lennének kötöttek. Ezután összeadjuk az összes olyan rangot, amilyenek lennének, és elosztjuk azzal, hogy hányan vannak. Tegyük fel például, hogy rangsoroljuk, hogy különböző emberek milyen jól teljesítettek egy helyesírási tesztben.
| Teszt pontszám | Rangsor | Rangsor (holtversenyben) |
| 4 | 1 | 1 |
| 6 | 2 | 2 + 3 + 4 3 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}} |
| 6 | 3 | 2 + 3 + 4 3 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}} |
| 6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+3+4}{3}}=3}} |
| 8 | 5 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5}} |
| 8 | 6 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5}} |
Ezeket a számokat pontosan ugyanúgy kell használni, mint a normál rangokat.
Kapcsolódó oldalak
Kérdések és válaszok
K: Mi a Spearman-féle rangkorrelációs együttható?
V: A Spearman-féle rangkorrelációs együttható egy korrelációs mérőszám, amely megmutatja, hogy két adatsor milyen szoros kapcsolatban áll egymással. Csak olyan adatok esetében használható, amelyek sorrendbe állíthatók, például a legmagasabbtól a legalacsonyabbig.
K: Ki alkotta meg a Spearman-féle rangkorrelációs együtthatót?
V: Charles Spearman alkotta meg a Spearman-féle rangkorrelációs együtthatót.
K: Hogyan írható fel a Spearman-féle rangkorrelációs együttható általános képlete?
V: A Spearman-féle rangkorrelációs együttható általános képlete a következő: ρ = 1 - 6∑d2/n(n2-1).
K: Mikor kell használni a Spearman-féle rangkorrelációs együtthatót?
V: A Spearman-féle rangkorrelációs együtthatót akkor érdemes használni, ha azt szeretnénk látni, hogy két adatsor milyen szoros kapcsolatban áll egymással, illetve, hogy egyáltalán kapcsolatban állnak-e egymással.
K: Milyen típusú adatokkal működik?
V: Minden olyan adattípussal működik, amely sorrendbe állítható, például a legmagasabbtól a legalacsonyabbig.
K: Tudna mondani egy példát, ahol ezt a mérést használná?
V: Egy példa, ahol ezt a mérőszámot használhatnád, az lehet, ha rendelkezel adatokkal arra vonatkozóan, hogy mennyire drágák a különböző számítógépek, és adatokkal arra vonatkozóan, hogy mennyire gyorsak a számítógépek, akkor az r_s segítségével megnézheted, hogy kapcsolódnak-e, és mennyire szorosan kapcsolódnak egymáshoz.
Keres