Simpson-paradoxon (Yule-Simpson-effektus): meghatározás, okok és példák

Simpson-paradoxon (Yule-Simpson-effektus): részletes meghatározás, okok és szemléletes példák — hogyan téveszthet meg a statisztika? Olvasson tovább!

Szerző: Leandro Alegsa

A Simpson-paradoxon egy statisztikai paradoxon. Nevét Edward H. Simpson brit statisztikusról kapta, aki 1951-ben írta le először. Karl Pearson statisztikus 1899-ben írt le egy nagyon hasonló hatást.- Udny Yule leírása 1903-ból származik. Néha Yule-Simpson-effektusnak is nevezik. Amikor csoportok statisztikai pontszámát nézzük, ezek a pontszámok változhatnak attól függően, hogy a csoportokat egyenként vizsgáljuk, vagy egy nagyobb csoportba vonjuk össze őket. Ez az eset gyakran előfordul a társadalomtudományokban és az orvosi statisztikában. Összezavarhatja az embereket, ha gyakorisági adatokat használnak egy ok-okozati összefüggés magyarázatára. A paradoxon más elnevezései közé tartozik a fordított paradoxon és az összeolvadási paradoxon.

Mi történik a gyakorlatban?

A Simpson-paradoxon akkor lép fel, amikor két vagy több altcsoporton belüli irány ugyanaz (például B jobbnak tűnik A-nál minden altcsoportban), de az altcsoportok összesítésével az irány megfordul (az összesített adatok szerint A tűnik jobbnak). Ennek oka általában az, hogy az egyes altcsoportokban különböző méretűek a minták, vagy a vizsgált kezelést/kategóriát kapcsolatban áll egy harmadik változóval (confounder), amely befolyásolja az arányokat.

Matematikai magyarázat (egyszerűsítve)

Ha egy kategória összesített arányát számoljuk, az egyszerűen az altcsoportonkénti arányok súlyozott átlaga, ahol a súlyok az altcsoportokhoz tartozó megfigyelésszámok. Jelölve p_i az i-edik altcsoport arányát és n_i a mintanagyságot, az összesített arány:

P = (sum_i n_i p_i) / (sum_i n_i)

Ha a két vizsgált kategória (pl. kezelés A és B) különbözőképpen vannak elosztva az altcsoportok között, akkor a súlyok eltérőek lesznek, és a súlyozás megváltoztathatja a relációt az egyes altcsoportokban tapasztalthoz képest.

Konkrét (illusztratív) példa

Egyszerű, szemléltető példa (százalékokkal):

  • Altcsoport 1: A sikeressége 10%, B sikeressége 20% (B jobb)
  • Altcsoport 2: A sikeressége 90%, B sikeressége 95% (B jobb)
  • Ha azonban A-t főként az olyan altcsoportban alkalmazzák, ahol az arány nagy (például az altcsoport 2-ben sok embert kezelnek A-val), míg B-t főként az olyan altcsoportban használják, ahol a teljes arány kis súlyú (pl. altcsoport 1-ben sok embert kezelnek B-vel), akkor az összesített arányok megfordulhatnak: az összesített adatok szerint A javulást mutathat B-hez képest, bár mindkét altcsoportban B volt jobb.

Az ilyen numerikus példák jól szemléltetik, hogy a megfigyelt aggregált eredmény mennyire függ az altcsoportokra való felosztástól és a kezelés eloszlásától.

Gyakori példák és kontextusok

  • Felvételi vizsgálatok: egyetemi felvételinél egyes karokon a nők felvételi aránya magasabb lehet, mégis az összesített adatokból úgy tűnhet, hogy a férfiaknak kedveznek — ennek oka, hogy a nők aránya nagyobb volt a versenyképesebb szakokon.
  • Orvosi vizsgálatok: két kezelés altcsoportonként eltérő hatékonyságot mutathat, de a betegek eloszlása a kockázati kategóriák között megfordíthatja a pooled eredményt.
  • Társadalomtudományi elemzések: csoportok közti összehasonlításnál harmadik változók (pl. életkor, társadalmi státusz) okozhatnak látszólag ellentmondó eredményeket.

Hogyan kerülhető el vagy kezelhető a paradoxon?

  • Stratifikálás: Mindig vizsgáljuk meg az adatokat altcsoportokra bontva, ne csak az összesített mutatókat.
  • Kontrollálás statisztikai módszerekkel: regressziók, többszörös változós modellek, propensity score módszerek segíthetnek a confounderek hatásának becslésében.
  • Kausalitásra óvatos következtetés: Kerüljük az aggregált adatokból történő közvetlen oksági következtetést — ha lehetséges, alkalmazzunk randomizált kísérletet.
  • Vizualizáció és részletes riportálás: Mutassuk be mind az altcsoportokra bontott, mind az összesített eredményeket; használjunk táblázatokat és grafikonokat, hogy látható legyen a mintaeloszlás.
  • Kausális modellek alkalmazása: Teret adhatnak az olyan eszközöknek, mint a direkt modellalkotás vagy a DAG (irányított aciklikus gráf), hogy azonosítsuk és kezeljük a confoundereket.

Következtetés

A Simpson-paradoxon fontos figyelmeztetés: az adatok aggregálása elrejthet vagy megváltoztathat fontos összefüggéseket. Mind tudományos vizsgálatok, mind döntéshozatal során alapfeltétel, hogy ellenőrizzük az altcsoportokat, azonosítsuk a lehetséges confoundereket, és óvatosan fogalmazzunk oksági következtetéseket. A paradoxon nem hiba a statisztikában, hanem következménye annak, hogy az adatok szerkezete és a mérési eljárások hatással vannak az összegzett eredményekre.

Példa: Vesekő kezelése

Ez egy valós példa egy orvosi tanulmányból, amely a vesekő két kezelésének sikerességét hasonlítja össze.

A táblázat a sikerességi arányokat és a kezelések számát mutatja a kis és nagy veseköveket érintő kezelések esetében, ahol az A kezelés az összes nyílt eljárást, a B kezelés pedig a perkután nefrolitotómiát foglalja magában:

A kezelés

B kezelés

siker

hiba

siker

hiba

Kis kövek

1. csoport

2. csoport

a betegek száma

81

6

234

36

93%

7%

87%

13%

Nagy kövek

3. csoport

4. csoport

a betegek száma

192

71

55

25

73%

27%

69%

31%

Mindkettő

1+3 csoport

2+4 csoport

a betegek száma

273

77

289

61

78%

22%

83%

17%

A paradox következtetés az, hogy az A kezelés hatékonyabb, ha kis köveken, és akkor is, ha nagy köveken alkalmazzák, ugyanakkor a B kezelés hatékonyabb, ha mindkét méretet egyszerre vesszük figyelembe. Ebben a példában nem volt ismert, hogy a vesekő mérete befolyásolja az eredményt. Ezt a statisztikában rejtett változónak (vagy lappangó változónak) nevezik.

Azt, hogy melyik kezelés tekinthető jobbnak, két arány (sikerek/összesség) egyenlőtlensége határozza meg. Az arányok közötti egyenlőtlenség megfordulása, amely a Simpson-paradoxont hozza létre, azért történik, mert két hatás együttesen jelentkezik:

  1. A lappangó változó figyelmen kívül hagyása esetén egyesített csoportok mérete nagyon eltérő. Az orvosok hajlamosak a súlyos eseteket (nagy kövek) jobb kezelésben részesíteni (A), az enyhébb eseteket (kis kövek) pedig rosszabb kezelésben (B). Ezért az összegeket a hármas és a kettes csoport uralja, és nem a két sokkal kisebb, egyes és négyes csoport.
  2. A lappangó változónak nagy hatása van az arányokra, azaz a sikerességi arányt erősebben befolyásolja az eset súlyossága, mint a kezelés megválasztása. Ezért a nagy kövekkel rendelkező betegek A kezelést alkalmazó csoportja (hármas csoport) rosszabbul teljesít, mint a kis kövekkel rendelkező betegek csoportja, még akkor is, ha utóbbiak az alsóbbrendű B kezelést alkalmazták (kettes csoport).


Keres
AlegsaOnline.com - 2020 / 2025 - License CC3