A matematikában és a statisztikában a Spearman-féle rangkorrelációs együttható a korreláció egy mérőszáma, amelyet készítőjéről, Charles Spearmanról neveztek el. Röviden a görög rho betűvel ( ρ {\displaystyle \rho } ) vagy néha r s {\displaystyle r_{s}} alakban írják.
. Ez egy olyan szám, amely megmutatja, hogy két adatsor milyen szoros kapcsolatban áll egymással. Csak olyan adatok esetében használható, amelyek sorrendbe állíthatók, például a legmagasabbtól a legalacsonyabbig.
Az r s {\displaystyle r_{s}} általános képlete ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}
.
Miért és mikor használjuk?
A Spearman-féle rangkorrelációt akkor alkalmazzuk, ha az adatok sorrendje (rangja) fontosabb, mint az eredeti mért értékek, vagy ha az adatok nem teljesítik a Pearson-féle korreláció feltételeit (pl. nem normális eloszlás, erős kiugró értékek). Jó választás, ha:
- az adatok ordinális skálán vannak (pl. versenyeredmények, elégedettségi skála),
- a kapcsolat monotón (az egyik változó növekedésével a másik is általában nő vagy csökken), de nem feltétlenül lineáris,
- vagy ha kiugró értékek/csúcsok miatt a Pearson-érzékenység problémát okozna.
A képlet magyarázata és számítási lépések
A képletben szereplő jelölések:
- n — a párok száma (minták száma),
- d — az adott párra vonatkozó rangkülönbség: d = rang(x) − rang(y),
- ∑ d² — az összes pár rangkülönbségének négyzetösszege.
Számítási lépések:
- Rendezd mindkét változót rangsorba (1 a legkisebb vagy legnagyobb, attól függően, hogyan definiálod).
- Ha kötött rangok (ties) fordulnak elő, rendelj átlagolt rangokat a kötött értékeknek.
- Minden megfigyelésre számítsd ki d = rang(x) − rang(y).
- Számítsd ki d²-nek az összegét: ∑ d².
- Helyettesítsd be a képletbe: ρ = 1 − (6 ∑ d²) / (n(n² − 1)).
Értelmezés
- ρ = +1: tökéletes monoton növekvő kapcsolat (a rangok teljesen megegyeznek).
- ρ = −1: tökéletes monoton csökkenő kapcsolat (egyik rang fordítottan arányos a másikkal).
- ρ = 0: nincs monoton kapcsolat a rangok között (nem feltétlenül jelenti a teljes függetlenséget, csak a monoton kapcsolat hiányát).
Kötött rangok (ties) kezelése
A fenti zárt képlet pontos akkor, ha nincsenek kötött rangok. Ha ugyanaz az érték többször előfordul, akkor az egyes kötött értékekhez átlagolt rangot rendelünk. Ebben az esetben az egyszerű képlet csak közelítő értéket ad; pontosabb módszer, illetve a statisztikai szoftverek általában a rangokra alkalmazott Pearson-féle korrelációt számítják ki (azaz számolják ki a Pearson korrelációt a rangokból), ami automatikusan kezeli a kötéseket.
Példa (egyszerű számítás)
Vegyük például öt számítógép árát és sebességét (egyszerűsített adat):
- Ár rangok: 1, 2, 3, 4, 5 (1 = legolcsóbb, 5 = legdrágább)
- Sebesség rangok: 1, 2, 4, 3, 5
Számítsuk ki d = ár_rang − sebesség_rang soronként, majd d²-t, és összegüket.
Például: d-értékek = (0, 0, −1, 1, 0), d² = (0, 0, 1, 1, 0), ∑ d² = 2.
Helyettesítve a képletbe: ρ = 1 − (6·2) / (5(25 − 1)) = 1 − 12 / 120 = 1 − 0.1 = 0.9. Ez erős pozitív monoton kapcsolatot jelez.
Hipotézisvizsgálat és p-érték
Gyakori feladat eldönteni, hogy a megfigyelt r_s eltér-e nullától. A nullhipotézis általában: nincs monoton kapcsolat a populációban (ρ = 0). Kisebb minta esetén pontos permutációs tesztet vagy táblázatos eloszlást használnak. Nagyobb mintákban közelítő statisztika:
- Tesztstatisztika: t ≈ r_s · sqrt((n − 2) / (1 − r_s²)), amely közelítőleg t-eloszlású n − 2 szabadságfokkal (ez az átalakítás a Pearson-teszthez hasonló elven alapul).
- Pontos p-értékekhez gyakran permutációs (véletlenítéses) tesztet alkalmaznak vagy a statisztikai csomagok pontos eloszlás alapján számítanak.
Kapcsolat a Pearson-féle korrelációval
A Spearman-féle együttható tulajdonképpen a Pearson-féle korreláció alkalmazása a rangokra. Ez azt jelenti, hogy ha mindkét változót rangokká alakítjuk, és utána kiszámítjuk a Pearson korrelációt, azt megkapjuk, ami Spearman r_s-ként ismert. Emiatt r_s érzéketlenebb a kiugró értékekre és nem feltételez lineáris kapcsolatot, csak monotonitást.
Korlátozások és jó gyakorlat
- Spearman mér egy monotón kapcsolatot, de nem ad információt arról, hogy a kapcsolat milyen mértékben lineáris vagy milyen a pontos függvénykapcsolat.
- Ha sok kötött rang van, az értelmezés és a p-értékek pontosítása fontos; érdemes statisztikai szoftvert használni.
- Mindig ábrázold az adatokat (pl. szórásdiagram rangokkal vagy eredeti értékekkel), hogy lásd a kapcsolat jellegét és az esetleges kiugrókat.
Összefoglalás
A Spearman-féle rangkorreláció hasznos, egyszerű és robusztus eszköz a kétváltozós monoton összefüggések vizsgálatára, különösen akkor, ha az adatok ordinálisak, nem normális eloszlásúak, vagy kiugró értékek vannak. A képlet könnyen alkalmazható kis mintákra, kötött rangok esetén azonban érdemes a rangokra számított Pearson-korrelációt vagy pontosabb módszereket alkalmazni.
Ha szeretnéd, elvégezhetek egy részletes számítást egy konkrét adathalmazon (például a számítógépek ára és sebessége), és megmutatom a teljes lépésenkénti eljárást táblázatos formában is.