Simpson-paradoxon (Yule-Simpson-effektus): meghatározás, okok és példák
Simpson-paradoxon (Yule-Simpson-effektus): részletes meghatározás, okok és szemléletes példák — hogyan téveszthet meg a statisztika? Olvasson tovább!
A Simpson-paradoxon egy statisztikai paradoxon. Nevét Edward H. Simpson brit statisztikusról kapta, aki 1951-ben írta le először. Karl Pearson statisztikus 1899-ben írt le egy nagyon hasonló hatást.- Udny Yule leírása 1903-ból származik. Néha Yule-Simpson-effektusnak is nevezik. Amikor csoportok statisztikai pontszámát nézzük, ezek a pontszámok változhatnak attól függően, hogy a csoportokat egyenként vizsgáljuk, vagy egy nagyobb csoportba vonjuk össze őket. Ez az eset gyakran előfordul a társadalomtudományokban és az orvosi statisztikában. Összezavarhatja az embereket, ha gyakorisági adatokat használnak egy ok-okozati összefüggés magyarázatára. A paradoxon más elnevezései közé tartozik a fordított paradoxon és az összeolvadási paradoxon.
Mi történik a gyakorlatban?
A Simpson-paradoxon akkor lép fel, amikor két vagy több altcsoporton belüli irány ugyanaz (például B jobbnak tűnik A-nál minden altcsoportban), de az altcsoportok összesítésével az irány megfordul (az összesített adatok szerint A tűnik jobbnak). Ennek oka általában az, hogy az egyes altcsoportokban különböző méretűek a minták, vagy a vizsgált kezelést/kategóriát kapcsolatban áll egy harmadik változóval (confounder), amely befolyásolja az arányokat.
Matematikai magyarázat (egyszerűsítve)
Ha egy kategória összesített arányát számoljuk, az egyszerűen az altcsoportonkénti arányok súlyozott átlaga, ahol a súlyok az altcsoportokhoz tartozó megfigyelésszámok. Jelölve p_i az i-edik altcsoport arányát és n_i a mintanagyságot, az összesített arány:
P = (sum_i n_i p_i) / (sum_i n_i)
Ha a két vizsgált kategória (pl. kezelés A és B) különbözőképpen vannak elosztva az altcsoportok között, akkor a súlyok eltérőek lesznek, és a súlyozás megváltoztathatja a relációt az egyes altcsoportokban tapasztalthoz képest.
Konkrét (illusztratív) példa
Egyszerű, szemléltető példa (százalékokkal):
- Altcsoport 1: A sikeressége 10%, B sikeressége 20% (B jobb)
- Altcsoport 2: A sikeressége 90%, B sikeressége 95% (B jobb)
- Ha azonban A-t főként az olyan altcsoportban alkalmazzák, ahol az arány nagy (például az altcsoport 2-ben sok embert kezelnek A-val), míg B-t főként az olyan altcsoportban használják, ahol a teljes arány kis súlyú (pl. altcsoport 1-ben sok embert kezelnek B-vel), akkor az összesített arányok megfordulhatnak: az összesített adatok szerint A javulást mutathat B-hez képest, bár mindkét altcsoportban B volt jobb.
Az ilyen numerikus példák jól szemléltetik, hogy a megfigyelt aggregált eredmény mennyire függ az altcsoportokra való felosztástól és a kezelés eloszlásától.
Gyakori példák és kontextusok
- Felvételi vizsgálatok: egyetemi felvételinél egyes karokon a nők felvételi aránya magasabb lehet, mégis az összesített adatokból úgy tűnhet, hogy a férfiaknak kedveznek — ennek oka, hogy a nők aránya nagyobb volt a versenyképesebb szakokon.
- Orvosi vizsgálatok: két kezelés altcsoportonként eltérő hatékonyságot mutathat, de a betegek eloszlása a kockázati kategóriák között megfordíthatja a pooled eredményt.
- Társadalomtudományi elemzések: csoportok közti összehasonlításnál harmadik változók (pl. életkor, társadalmi státusz) okozhatnak látszólag ellentmondó eredményeket.
Hogyan kerülhető el vagy kezelhető a paradoxon?
- Stratifikálás: Mindig vizsgáljuk meg az adatokat altcsoportokra bontva, ne csak az összesített mutatókat.
- Kontrollálás statisztikai módszerekkel: regressziók, többszörös változós modellek, propensity score módszerek segíthetnek a confounderek hatásának becslésében.
- Kausalitásra óvatos következtetés: Kerüljük az aggregált adatokból történő közvetlen oksági következtetést — ha lehetséges, alkalmazzunk randomizált kísérletet.
- Vizualizáció és részletes riportálás: Mutassuk be mind az altcsoportokra bontott, mind az összesített eredményeket; használjunk táblázatokat és grafikonokat, hogy látható legyen a mintaeloszlás.
- Kausális modellek alkalmazása: Teret adhatnak az olyan eszközöknek, mint a direkt modellalkotás vagy a DAG (irányított aciklikus gráf), hogy azonosítsuk és kezeljük a confoundereket.
Következtetés
A Simpson-paradoxon fontos figyelmeztetés: az adatok aggregálása elrejthet vagy megváltoztathat fontos összefüggéseket. Mind tudományos vizsgálatok, mind döntéshozatal során alapfeltétel, hogy ellenőrizzük az altcsoportokat, azonosítsuk a lehetséges confoundereket, és óvatosan fogalmazzunk oksági következtetéseket. A paradoxon nem hiba a statisztikában, hanem következménye annak, hogy az adatok szerkezete és a mérési eljárások hatással vannak az összegzett eredményekre.
Példa: Vesekő kezelése
Ez egy valós példa egy orvosi tanulmányból, amely a vesekő két kezelésének sikerességét hasonlítja össze.
A táblázat a sikerességi arányokat és a kezelések számát mutatja a kis és nagy veseköveket érintő kezelések esetében, ahol az A kezelés az összes nyílt eljárást, a B kezelés pedig a perkután nefrolitotómiát foglalja magában:
| A kezelés | B kezelés | |||
| siker | hiba | siker | hiba | |
| Kis kövek | 1. csoport | 2. csoport | ||
| a betegek száma | 81 | 6 | 234 | 36 |
| 93% | 7% | 87% | 13% | |
| Nagy kövek | 3. csoport | 4. csoport | ||
| a betegek száma | 192 | 71 | 55 | 25 |
| 73% | 27% | 69% | 31% | |
| Mindkettő | 1+3 csoport | 2+4 csoport | ||
| a betegek száma | 273 | 77 | 289 | 61 |
| 78% | 22% | 83% | 17% | |
A paradox következtetés az, hogy az A kezelés hatékonyabb, ha kis köveken, és akkor is, ha nagy köveken alkalmazzák, ugyanakkor a B kezelés hatékonyabb, ha mindkét méretet egyszerre vesszük figyelembe. Ebben a példában nem volt ismert, hogy a vesekő mérete befolyásolja az eredményt. Ezt a statisztikában rejtett változónak (vagy lappangó változónak) nevezik.
Azt, hogy melyik kezelés tekinthető jobbnak, két arány (sikerek/összesség) egyenlőtlensége határozza meg. Az arányok közötti egyenlőtlenség megfordulása, amely a Simpson-paradoxont hozza létre, azért történik, mert két hatás együttesen jelentkezik:
- A lappangó változó figyelmen kívül hagyása esetén egyesített csoportok mérete nagyon eltérő. Az orvosok hajlamosak a súlyos eseteket (nagy kövek) jobb kezelésben részesíteni (A), az enyhébb eseteket (kis kövek) pedig rosszabb kezelésben (B). Ezért az összegeket a hármas és a kettes csoport uralja, és nem a két sokkal kisebb, egyes és négyes csoport.
- A lappangó változónak nagy hatása van az arányokra, azaz a sikerességi arányt erősebben befolyásolja az eset súlyossága, mint a kezelés megválasztása. Ezért a nagy kövekkel rendelkező betegek A kezelést alkalmazó csoportja (hármas csoport) rosszabbul teljesít, mint a kis kövekkel rendelkező betegek csoportja, még akkor is, ha utóbbiak az alsóbbrendű B kezelést alkalmazták (kettes csoport).
Keres