A Student t-eloszlás egy fontos valószínűségeloszlás, amelyet William Sealy Gosset 1908-ban vezetett be. Student az az álnév, amelyet akkor használt, amikor az eloszlást leíró dolgozatát publikálta. Gosset a sörfőzdében dolgozott, és különösen a kis minták (például az árpa) kémiai és minőségi vizsgálata érdekelte; számos vizsgálatban a mintaelemszám nagyon kicsi lehetett, akár 3 is. A álnév használatára több magyarázat ismert: állítólag a munkaadó előnyben részesítette, hogy a dolgozók publikációikban álnevet használjanak, vagy az is előfordulhatott, hogy nem akarták, hogy a versenytársak megtudják, hogyan alkalmazzák a t-próbát a nyersanyagok minőségének vizsgálatára.
Definíció és intuitív értelmezés
Ha egy normális eloszlásból származó, mérete n mintát veszünk, és a populáció szórása ismeretlen, akkor a mintaátlag és a minta szórása alapján definiált statisztika
t = (X̄ − μ) / (S / √n)
közelítőleg a Student-féle t-eloszlást követi, ha a minta ténylegesen normál eloszlásból származik. Gyakori formális definíció: ha Z ~ N(0,1) és V ~ χ²(ν) függetlenül, akkor
T = Z / sqrt(V/ν) követi a ν szabadsági fokú t-eloszlást. A gyakorlatban, amikor a mintából számolt mintaátlag és minta szórás viszonyát vizsgáljuk, a szabadsági fokot általában ν = n − 1-nek választjuk.
A fenti összefüggés szemléletesen azt mondja: a t-eloszlás a valódi átlag (μ) helyének eloszlását írja le a mintaátlaghoz képest, ha a nevezőben a minta szórását használjuk a populáció szórása helyett. (A forrás szövegben szereplő normalizáló kifejezés: n {\displaystyle {\sqrt {n}}} a √n-et jelöli, amely a mintaátlag szóródásának (standard error) megfelelő skálázó tényező).
Alapvető tulajdonságok
- Szimmetrikus és harang alakú, hasonló a normális eloszláshoz, de „nehézebb farkú” (heavy-tailed): a szélső értékek előfordulása nagyobb valószínűségű, mint a normális eloszlásnál.
- A t-eloszlás a szabadsági fok (ν) függvénye: minden ν értékhez tartozik egy t-eloszlás, és minél nagyobb ν, annál jobban közelít az eloszlás a normálishoz (ν → ∞ esetén limitje a standard normális eloszlás).
- Különleges esetek: ν = 1 esetén a t-eloszlás megegyezik a Cauchy-eloszlással (nincs véges középértéke), míg nagy ν esetén a variancia közelíti a normális varianciáját.
- A t-eloszlás sűrűségfüggvénye (pdf) zárt alakban felírható gamma-függvénnyel: f(t) = Γ((ν+1)/2) / [√(νπ) Γ(ν/2)] · (1 + t²/ν)^(-(ν+1)/2), ahol Γ a gamma-függvény.
- A középérték és a variancia feltételei: az átlag 0, ha ν > 1; a variancia = ν/(ν−2), ha ν > 2 (ν ≤ 2 esetén a variancia nem értelmezett, ν ≤ 1 esetén az átlag sem értelmezett). A kurtózis véges volta további feltételekhez kötött (például a négyzetes momentum csak ν > 4 esetén véges).
Kapcsolat más eloszlásokkal
- ν = 1 → Cauchy-eloszlás.
- ν → ∞ → standard normális eloszlás.
- A t-eloszlás a normál eloszlás és a χ²-eloszlás kombinációjából származtatható (lásd a Z és V definíciót feljebb).
- A Student-féle t-eloszlás az általánosított hiperbolikus eloszlás egy speciális esete.
Alkalmazások
A t-eloszlás számos gyakorlati statisztikai módszer alapja:
- Student's t-teszt: két minta átlaga közötti különbség statisztikai szignifikanciájának vizsgálata, különösen akkor, ha a populációk varianciája ismeretlen és a minták kicsik.
- Konfidenciaintervallumok a populációátlagra: a mintaátlag körüli intervallumok kialakítása a t-disztribúció kvantilisei alapján, amikor a populáció szórása ismeretlen.
- Lineáris regresszióelemzés: a regressziós együtthatók t-statisztikája a becsült hibák alapján határozza meg az együtthatók szignifikanciáját.
- Bayes-elemzésekben: a t-eloszlás gyakran megjelenik prior vagy posterior prediktív eloszlás formájában, különösen ha a zaj vagy a residualok nehezebb farkúak, mint a normális esetben.
- Robusztus statisztikák: mivel a t-eloszlás farkai „nehézsége” megengedi kiugró értékek modellezését, használják kiugrókra érzékeny adatok kezelésére.
Gyakorlati megjegyzések
- Kis minták esetén a t-eloszlás használata segít figyelembe venni a minta szórásából eredő bizonytalanságot, amely a populáció szórásának ismeretlensége miatt jelentkezik.
- Míg a normal eloszlás feltétele gyakori kiindulópont, a t-eloszlás alkalmazása különösen indokolt kis n és/vagy ismeretlen populációvariancia esetén.
- Fontos a szabadsági fok helyes megadása (általában ν = n − 1 egyszerű esetekben); regressziós modellekben és kétmintás tesztekben azonban a szabadsági fok számítása eltérő lehet (például Welch-teszt).
Összefoglalva: a Student-féle t-eloszlás a gyakorlatban széles körben használt eloszlás, amely a kis mintákra és ismeretlen populációvariancia esetére nyújt megbízható analitikai eszközt, és amely kapcsolatban áll a normális és a χ²-eloszlásokkal.