A statisztikában a konfidenciaintervallum egy bizonyos paraméter becslésének egy speciális formája. Ezzel a módszerrel egyetlen érték helyett a paraméter elfogadható értékeinek teljes intervallumát adjuk meg, azzal a valószínűséggel együtt, hogy a paraméter valós (ismeretlen) értéke az intervallumon belül van. A konfidenciaintervallum a mintából származó megfigyeléseken alapul, ezért mintánként eltérő. Annak valószínűségét, hogy a paraméter az intervallumban lesz, konfidenciaszintnek nevezzük. Ezt nagyon gyakran százalékban adják meg. A megbízhatósági intervallumot mindig a megbízhatósági szinttel együtt adják meg. Az emberek beszélhetnek a "95%-os konfidenciaintervallumról". A konfidenciaintervallum végpontjait konfidenciahatároknak nevezik. Egy adott helyzetben egy adott becslési eljárás esetében minél magasabb a konfidencia-szint, annál szélesebb a konfidencia-intervallum.
A konfidenciaintervallum kiszámításához általában feltételezésekre van szükség a becslési folyamat természetével kapcsolatban - ez elsősorban egy parametrikus módszer. Az egyik gyakori feltételezés az, hogy annak a populációnak az eloszlása, amelyből a minta származik, normális. Mint ilyen, az alább tárgyalt konfidenciaintervallumok nem robusztus statisztikák, bár a robusztusság növelése érdekében változtatásokat lehet végrehajtani.
Mit jelent a 95% konfidenciaszint?
A 95%-os konfidenciaszint azt jelenti, hogy ha azonos módon sok, független mintát veszünk ugyanabból a populációból és minden mintára kiszámítjuk a 95%-os konfidenciaintervallumot, akkor a módszerrel kapott intervallumok körülbelül 95%-a fogja tartalmazni a valódi (ismeretlen) populációs paramétert. Ez nem azt jelenti, hogy az adott, már kiszámolt intervallumnak 95% az esélye arra, hogy a paraméter benne legyen — a paraméternek nincs valószínűségi eloszlása a klasszikus (frequentista) megközelítésben; a bizonyosság a procedúra hosszú távú viselkedésére vonatkozik.
Alapképletek és számítások
Általános formában egy konfidenciaintervallum a becsült érték ± kritikus érték × standard hiba formában írható:
- CI = becslés ± z* × SE, ahol z* a standard normál eloszlás kritikus értéke (pl. 1,96 a 95%‑hoz).
- Ha a populáció szórása ismeretlen és a minta kicsi, helyette a Student-féle t eloszlás kritikus értékét (t_{df}) használjuk: CI = becslés ± t_{df} × SE.
Standard hibák:
- Átlag esetén: SE = s / sqrt(n), ahol s a minta szórása és n a minta elemszáma.
- Arány (proporcionális jelenség) esetén: SE = sqrt(p̂(1 − p̂) / n), ahol p̂ a mintabeli arány.
Példa 95%-os konfidenciaintervallumra (átlag)
Tegyük fel, hogy egy minta átlaga 100, a minta szórása 15 és n = 25. Ha feltételezzük, hogy a populáció normális vagy a minta elég nagy:
- Normál-közelítés (z* = 1,96): SE = 15 / sqrt(25) = 15 / 5 = 3. Margin = 1,96 × 3 ≈ 5,88. CI ≈ 100 ± 5,88 → [94,12; 105,88].
- T-eloszlás (df = 24, t ≈ 2,064): Margin = 2,064 × 3 ≈ 6,19. CI ≈ 100 ± 6,19 → [93,81; 106,19].
Megjegyzés: kis minták esetén a t-eloszlás használata helyesebb, mert a kritikus érték nagyobb, így szélesebb (és reálisabb) intervallumot ad.
Példa 95%-os konfidenciaintervallumra (arány)
Ha egy felmérésben p̂ = 0,60 (60%) és n = 100, akkor:
- SE = sqrt(0,6 × 0,4 / 100) = sqrt(0,24 / 100) ≈ 0,049
- Margin = 1,96 × 0,049 ≈ 0,096
- CI ≈ 0,60 ± 0,096 → [0,504; 0,696] (azaz 50,4%–69,6%).
Ha az n kis, vagy p̂ nagyon közel 0-hoz vagy 1-hez, akkor a Wilson- vagy exact (Clopper–Pearson) módszerek megbízhatóbbak lehetnek a legegyszerűbb normál-approximációnál.
Fontos megjegyzések és gyakori félreértések
- Interpretáció: A 95%-os CI nem adja meg annak a valószínűségét, hogy a paraméter benne van a konkrét intervallumban (klasszikus értelemben). A helyes megfogalmazás: "a módszer kb. 95% eséllyel ad olyan intervallumot, amely tartalmazza a valódi paramétert".
- Konfidenciaszint és intervallum szélessége: Magasabb konfidenciaszint (pl. 99%) → szélesebb intervallum; alacsonyabb szint (pl. 90%) → keskenyebb intervallum.
- Minta nagysága: Nagyobb minta → kisebb standard hiba → szűkebb konfidenciaintervallum.
- Feltételezések: Általában szükség van független, véletlen mintavételre és gyakran normális eloszlásra a populációban (vagy elég nagy minta esetén a központi határeloszlás miatt). Ha ezek nem teljesülnek, használjunk robusztus vagy nemparametrikus módszereket (bootstrap, permutációs eljárások).
- Ismert vs. ismeretlen szórás: Ha a populáció szórása ismert (ritka a gyakorlatban), használjuk a z-értéket; ha ismeretlen, a t-eloszlás javasolt, különösen kis mintánál.
- Többszörös összehasonlítások: Ha egy vizsgálatban sok CI-t számítunk, a "családi" lefedettség csökken — ekkor korrekciókat (pl. Bonferroni) lehet alkalmazni.
Gyors útmutató a helyes gyakorlatra
- Mindig tüntesse fel a konfidenciaszintet (pl. 95%).
- Jelezze a minta elemszámát (n) és hogy melyik módszert használták (z, t, Wilson, bootstrap stb.).
- Adja meg a feltételezások fő korlátait (pl. normális eloszlás, független mintavétel).
- Szükség esetén fontolja meg robusztusabb módszerek használatát (bootstrap CI kisebb feltételezásokkal dolgozik).
Összefoglalás
A konfidenciaintervallum hasznos eszköz a paraméter-becslés pontosságának és bizonytalanságának szemléltetésére. A 95%-os CI a leggyakoribb gyakorlatban, de mindig figyelni kell a minta méretére, a szórás ismeretére és az alkalmazott eloszlási feltételezésekre. A helyes értelmezés és a módszer részletes megadása (szint, n, alkalmazott eljárás) elengedhetetlen a megbízható statisztikai kommunikációhoz.


