A statisztikában és a valószínűségelméletben a korreláció azt jelenti, hogy két adathalmaz milyen szoros kapcsolatban áll egymással. Az összefüggés nem mindig jelenti azt, hogy az egyik okozza a másikat. Nagyon is lehetséges, hogy egy harmadik tényező is szerepet játszik. A korrelációnak általában két iránya van. Ezek pozitív vagy negatív irányúak. Ha pozitív, akkor a két halmaz együtt emelkedik. Ha negatív, akkor az egyik felfelé megy, míg a másik lefelé. A korreláció számos különböző mérési módját használják különböző helyzetekben. Például egy szórásdiagramon az emberek a legjobb illeszkedés vonalát rajzolják meg, hogy megmutassák a korreláció irányát.

Mi az a korreláció pontosan?

A korreláció statisztikai fogalom arra utal, hogy két változó együtt mozog-e, és ha igen, milyen mértékben és irányban. A korreláció lehet:

  • pozitív: mindkét változó növekszik együtt,
  • negatív: az egyik nő, miközben a másik csökken,
  • nincs korreláció: nincs észlelhető kapcsolat.

Korreláció iránya és erőssége

A korreláció irányát a előjel mutatja (+ vagy −). Az erősségét gyakran egy korrelációs együttható abszolút értéke írja le. Konvencionális értelmezés (nagyjából iránymutató):

  • |r| < 0,1: elhanyagolható korreláció
  • 0,1 ≤ |r| < 0,3: gyenge korreláció
  • 0,3 ≤ |r| < 0,5: közepes korreláció
  • 0,5 ≤ |r| < 0,7: erős korreláció
  • |r| ≥ 0,7: nagyon erős korreláció
Érdemes megjegyezni, hogy ezek határok területtől és kontextustól függően változhatnak: egy orvosi vizsgálatban már kis r is lehet fontos, míg más területeken nagyobb értékek szükségesek ahhoz, hogy gyakorlati jelentőségük legyen.

Főbb korrelációs együtthatók (típusok)

Néhány gyakran használt korrelációs mutató:

  • Pearson-féle korrelációs együttható (r) — a lineáris kapcsolat mérésére szolgál két folytonos változó között. Definíciója (mintaváltozók esetén): r = Σ(xi − x̄)(yi − ȳ) / sqrt(Σ(xi − x̄)² Σ(yi − ȳ)²). Alternatív alak: r = cov(X,Y) / (σX σY).
  • Spearman rangkorreláció (ρ) — a monoton (nem feltétlenül lineáris) kapcsolat mérésére szolgál. Az adatok rangsorain alapul, érzéketlenebb az outlierekre és nem igényli a normális eloszlást.
  • Kendall-féle τ — szintén rangalapú, a rangpárok konzisztenciáját méri; kis mintákban gyakran stabilabb, mint a Spearman.
  • Point-biserial, Phi és más speciális mutatók — bináris és folyamatos, vagy két bináris változó közötti kapcsolat mérésére.
  • Részleges korreláció — két változó közötti kapcsolat mértéke, miközben egy vagy több harmadik változó hatását kontrollálják.

Számítás és értelmezés

A Pearson-féle együttható alkalmas, ha a kapcsolat közel lineáris és az adatok viszonylag normális eloszlásúak. Az együttható értéke −1 és +1 közé esik. A négyzetre emelt érték, r², megmutatja, hogy a magyarázott variancia hány százaléka tulajdonítható a lineáris kapcsolatnak (például r = 0,6 → r² = 0,36 → 36% magyarázott variancia).

Statisztikai tesztekkel (például t-teszt r-re) meg lehet vizsgálni, hogy a megfigyelt korreláció eltér-e nullától, de a p-érték függ a minta nagyságától: nagy mintában kis r is szignifikáns lehet, kis mintában pedig nagy r sem biztos, hogy szignifikáns.

Korlátozások: korreláció nem jelent okságot

Nagy figyelemmel kell kezelni a korrelációt, mert:

  • Okság hiánya: A korreláció nem bizonyítja, hogy az egyik változó okozza a másikat.
  • Harmadik változó (confounder): Egy külső tényező okozhatja mindkét változó változását. Klasszikus példa: a fagyizó eladások és a fürdőbalesetek korrelálnak, de a közös magyarázó a meleg időjárás.
  • Outlierek: Egy-két szélsőséges érték erősen befolyásolhatja a Pearson-együtthatót.
  • Nemlineáris összefüggés: Ha a kapcsolat nem lineáris (például parabola), a Pearson r közelítése pontatlan lehet — ilyen esetben a Spearman vagy más módszer jobb választás lehet.

Gyakori példák és alkalmazások

A korrelációt széles körben használják: közgazdaságtanban (árbevétel és marketingköltség), orvostudományban (kockázati tényezők és betegségek), társadalomtudományokban (oktatás és jövedelem), valamint mérnöki és természettudományos kutatásokban. Mindig fontos a kontextus és az adatok vizuális ellenőrzése (pl. szórásdiagram) a helyes következtetéshez.

Tippek a helyes használathoz

  • Ábrázold az adatokat szórásdiagramon, mielőtt korrelációs mutatót számítanál.
  • Válaszd a megfelelő együtthatót (Pearson lineáris összefüggéshez, Spearman monoton összefüggéshez).
  • Vizsgáld az outliereket és a minta méretét.
  • Legyél óvatos az oksági következtetésekkel; ha oksági viszonyt szeretnél bizonyítani, használj kísérleti vagy speciális megfigyelési módszereket (pl. randomizált kísérletek, longitudinális adatelemzés, mediációs/részleges korreláció).

Összefoglalva: a korreláció hasznos eszköz a változók közötti kapcsolatok felfedezésére és jellemzésére, de értelmezéséhez mindig szükséges az adatok környezetének, eloszlásának és a lehetséges zavaró tényezőknek a figyelembe vétele.