A standard hiba egy statisztika mintavételi eloszlásának szórása. A kifejezés használható a teljes csoportból vett mintából vett becslésre (jó becslés) is.

Egy csoport egy részének (az úgynevezett mintának) az átlaga a szokásos módja annak, hogy megbecsüljük az egész csoport átlagát. Gyakran túl nehéz vagy túl sok pénzbe kerül az egész csoportot megmérni. Ha azonban egy másik mintát mérünk, akkor annak az átlaga egy kicsit eltér az első mintától. Az átlag standard hibája egy módja annak, hogy megtudjuk, mennyire van közel a minta átlaga az egész csoport átlagához. Ez egy módja annak, hogy megtudjuk, mennyire lehetünk biztosak a minta átlagában.

A valós mérések során az egész csoportra vonatkozó átlag szórásának valódi értéke általában nem ismert. Ezért a standard hiba kifejezést gyakran a teljes csoportra vonatkozó valós értékhez közeli becslésként használják. Minél több mérés van egy mintában, annál közelebb lesz a becslés a teljes csoportra vonatkozó valós számhoz.

Számítás — alapképletek

  • Átlag standard hibája (ha a populáció szórása ismert): SE(X̄) = σ / √n, ahol σ a populáció szórása, n a minta elemszáma.
  • Átlag standard hibája (ha a populáció szórása ismeretlen, helyette a mintaszórást használjuk): SE(X̄) ≈ s / √n, ahol s a mintából számított szórás.
  • Arány (proporcionális) becslés SE-je: SE(p̂) = √[p(1 − p) / n], gyakorlati számításhoz p helyett p̂-t használjuk: SE(p̂) ≈ √[p̂(1 − p̂) / n].
  • Különbség két átlag SE-je: SE(X̄1 − X̄2) = √[σ1²/n1 + σ2²/n2], és ha σk helyett sk-t használunk, akkor analóg módon becsüljük.

Értelmezés és tipikus felhasználások

  • A standard hiba azt méri, mennyire változna az adott becslés (pl. mintaátlag) eredménye, ha sokszor ismételnénk a mintavételt ugyanabból a populációból. Minél kisebb az SE, annál stabilabb a becslés.
  • Nem szabad összetéveszteni a szórással (standard deviation): a szórás az egyedi megfigyelések eltérését mutatja az átlagtól, míg az SE a becslő statisztika (például az átlag) ismételt mintavételekből várható eltérését mutatja.
  • A standard hibát gyakran használjuk konfidencia intervallumok és hipotézisvizsgálatok számításához: például 95% konfidencia intervallum az átlagra ≈ X̄ ± z*·SE (ha z*≈1.96), vagy kis minták esetén X̄ ± t*·SE a t-eloszlás kritikus értékével.
  • Az SE mértékegysége megegyezik az adott becslésével (például átlag egységeivel), tehát könnyen értelmezhető a becslés pontossága szempontjából.

Fontos megjegyzések és feltételek

  • Az SE képletei általában feltételezik, hogy a megfigyelések függetlenek és véletlenszerűen kerültek a mintába. Függő adatoknál (pl. időbeli sorozatok) az SE-t másképp kell kezelni.
  • Ha a minta az egész populáció jelentős részét foglalja el (n nagy az N-hez képest), akkor alkalmazható a véges populáció korrekció (finite population correction): FPC = √[(N − n) / (N − 1)], és a SE-t ez megszorozza.
  • Kis minták esetén, ha a populáció eloszlása nem normális vagy a szórás ismeretlen, a t-eloszlás használata indokolt a konfidencia intervallumokhoz és tesztekhez.
  • Bonyolultabb becslők (pl. medián, regressziós együtthatók vagy bonyolult mintavételi sémák) esetén a bootstrap módszerrel numerikusan is becsülhetjük az SE-t.

Gyakorlati példa

Ha egy mintában n = 25 megfigyelésünk van, a mintaszórás s = 10, akkor az átlag standard hibája SE ≈ s/√n = 10/5 = 2. Egy 95% konfidencia intervallumhoz (ha a mintázat feltételei teljesülnek és a minta elég nagy) a határérték körülbelül 1.96, így az intervallum kb. X̄ ± 1.96·2 ≈ X̄ ± 3.92.

Rövid összefoglalás

A standard hiba a mintavételi bizonytalanság mérőszáma: megmutatja, mennyire ingadozik egy becslés a minták között. Csökken a mintanagyság növelésével (arányosan a √n növekedésével), és alapvető szerepe van konfidencia intervallumok és hipotézisvizsgálatok készítésében. Ha a populáció szórása ismeretlen, a mintaszórásból kapott becslést használjuk, illetve kis minták esetén a t-eloszlás vagy bootstrap alkalmazása ajánlott.