A statisztikában és a valószínűségelméletben a korreláció azt jelenti, hogy két adathalmaz milyen szoros kapcsolatban áll egymással. Az összefüggés nem mindig jelenti azt, hogy az egyik okozza a másikat. Nagyon is lehetséges, hogy egy harmadik tényező is szerepet játszik. A korrelációnak általában két iránya van. Ezek pozitív vagy negatív irányúak. Ha pozitív, akkor a két halmaz együtt emelkedik. Ha negatív, akkor az egyik felfelé megy, míg a másik lefelé. A korreláció számos különböző mérési módját használják különböző helyzetekben. Például egy szórásdiagramon az emberek a legjobb illeszkedés vonalát rajzolják meg, hogy megmutassák a korreláció irányát.
Mi az a korreláció pontosan?
A korreláció statisztikai fogalom arra utal, hogy két változó együtt mozog-e, és ha igen, milyen mértékben és irányban. A korreláció lehet:
- pozitív: mindkét változó növekszik együtt,
- negatív: az egyik nő, miközben a másik csökken,
- nincs korreláció: nincs észlelhető kapcsolat.
Korreláció iránya és erőssége
A korreláció irányát a előjel mutatja (+ vagy −). Az erősségét gyakran egy korrelációs együttható abszolút értéke írja le. Konvencionális értelmezés (nagyjából iránymutató):
- |r| < 0,1: elhanyagolható korreláció
- 0,1 ≤ |r| < 0,3: gyenge korreláció
- 0,3 ≤ |r| < 0,5: közepes korreláció
- 0,5 ≤ |r| < 0,7: erős korreláció
- |r| ≥ 0,7: nagyon erős korreláció
Főbb korrelációs együtthatók (típusok)
Néhány gyakran használt korrelációs mutató:
- Pearson-féle korrelációs együttható (r) — a lineáris kapcsolat mérésére szolgál két folytonos változó között. Definíciója (mintaváltozók esetén): r = Σ(xi − x̄)(yi − ȳ) / sqrt(Σ(xi − x̄)² Σ(yi − ȳ)²). Alternatív alak: r = cov(X,Y) / (σX σY).
- Spearman rangkorreláció (ρ) — a monoton (nem feltétlenül lineáris) kapcsolat mérésére szolgál. Az adatok rangsorain alapul, érzéketlenebb az outlierekre és nem igényli a normális eloszlást.
- Kendall-féle τ — szintén rangalapú, a rangpárok konzisztenciáját méri; kis mintákban gyakran stabilabb, mint a Spearman.
- Point-biserial, Phi és más speciális mutatók — bináris és folyamatos, vagy két bináris változó közötti kapcsolat mérésére.
- Részleges korreláció — két változó közötti kapcsolat mértéke, miközben egy vagy több harmadik változó hatását kontrollálják.
Számítás és értelmezés
A Pearson-féle együttható alkalmas, ha a kapcsolat közel lineáris és az adatok viszonylag normális eloszlásúak. Az együttható értéke −1 és +1 közé esik. A négyzetre emelt érték, r², megmutatja, hogy a magyarázott variancia hány százaléka tulajdonítható a lineáris kapcsolatnak (például r = 0,6 → r² = 0,36 → 36% magyarázott variancia).
Statisztikai tesztekkel (például t-teszt r-re) meg lehet vizsgálni, hogy a megfigyelt korreláció eltér-e nullától, de a p-érték függ a minta nagyságától: nagy mintában kis r is szignifikáns lehet, kis mintában pedig nagy r sem biztos, hogy szignifikáns.
Korlátozások: korreláció nem jelent okságot
Nagy figyelemmel kell kezelni a korrelációt, mert:
- Okság hiánya: A korreláció nem bizonyítja, hogy az egyik változó okozza a másikat.
- Harmadik változó (confounder): Egy külső tényező okozhatja mindkét változó változását. Klasszikus példa: a fagyizó eladások és a fürdőbalesetek korrelálnak, de a közös magyarázó a meleg időjárás.
- Outlierek: Egy-két szélsőséges érték erősen befolyásolhatja a Pearson-együtthatót.
- Nemlineáris összefüggés: Ha a kapcsolat nem lineáris (például parabola), a Pearson r közelítése pontatlan lehet — ilyen esetben a Spearman vagy más módszer jobb választás lehet.
Gyakori példák és alkalmazások
A korrelációt széles körben használják: közgazdaságtanban (árbevétel és marketingköltség), orvostudományban (kockázati tényezők és betegségek), társadalomtudományokban (oktatás és jövedelem), valamint mérnöki és természettudományos kutatásokban. Mindig fontos a kontextus és az adatok vizuális ellenőrzése (pl. szórásdiagram) a helyes következtetéshez.
Tippek a helyes használathoz
- Ábrázold az adatokat szórásdiagramon, mielőtt korrelációs mutatót számítanál.
- Válaszd a megfelelő együtthatót (Pearson lineáris összefüggéshez, Spearman monoton összefüggéshez).
- Vizsgáld az outliereket és a minta méretét.
- Legyél óvatos az oksági következtetésekkel; ha oksági viszonyt szeretnél bizonyítani, használj kísérleti vagy speciális megfigyelési módszereket (pl. randomizált kísérletek, longitudinális adatelemzés, mediációs/részleges korreláció).
Összefoglalva: a korreláció hasznos eszköz a változók közötti kapcsolatok felfedezésére és jellemzésére, de értelmezéséhez mindig szükséges az adatok környezetének, eloszlásának és a lehetséges zavaró tényezőknek a figyelembe vétele.
