Gyakorisági eloszlás (statisztika) — definíció, típusok és példák

Ismerd meg a gyakorisági eloszlás fogalmát, típusait és szemléletes példákat statisztikában — egyszerű magyarázatok és gyakorlati alkalmazások.

Szerző: Leandro Alegsa

A statisztikában a gyakorisági eloszlás azoknak az értékeknek a listája, amelyeket egy változó egy mintában felvesz. Gyakorisági eloszlás alatt általában olyan rendezett táblázatot vagy felsorolást értünk, amely megmutatja, hogy az egyes értékek hányszor fordulnak elő (abszolút gyakoriság), illetve ez a gyakoriság a minta egészéhez viszonyítva mekkora arányt képvisel (relatív gyakoriság, százalékban kifejezve). A gyakorisági eloszlás egyszerű és közérthető módja az adatok összegzésének és az alapvető mintázatok — például a leggyakoribb érték(ek), az eloszlás alakja vagy a szélsőértékek — felismerésének.

Típusok röviden

  • Diszkrét (nem csoportosított) gyakorisági eloszlás: amikor az értékek véges vagy jól elkülöníthető egész értékek (pl. Likert-skála válaszai). Ilyenkor minden lehetséges értékhez feltüntetjük az előfordulások számát.
  • Csoportosított (folyamatos vagy sokféle érték esetén): az értékeket intervallumokra (osztályokra) bontjuk, és minden osztályhoz megadjuk a gyakoriságot.
  • Relatív gyakoriság: az abszolút gyakoriság osztva a mintaelemek számával (fi / n), gyakran százalékban adjuk meg.
  • Kumulatív gyakoriság: az adott értékig (vagy osztályig) előforduló összesítés (pl. hogyan halad a többi vagy az alatti értékek száma vagy aránya). Az ogív diagram ezt szemlélteti.
  • Elméleti (populációs) gyakorisági eloszlás: a minta helyett a teljes populációra vagy egy elméleti modellre vonatkozik (pl. valószínűségi eloszlás).

Egyszerű példa (Likert-skála)

Például, ha 100 ember egy ötfokozatú Likert-skálán egy állítással való egyetértésüket értékeli (1 = erős egyetértés, 5 = erős egyet nem értés), a válaszok gyakorisági eloszlása lehet például:

  • 1: 20
  • 2: 30
  • 3: 25
  • 4: 15
  • 5: 10

Itt az abszolút gyakoriságok összege 100. A relatív gyakoriságok: 0,20; 0,30; 0,25; 0,15; 0,10, vagy százalékosan 20%, 30%, 25%, 15%, 10%.

Csoportosított példa — magasságok

Ha egy osztályban a tanulók magasságát vesszük figyelembe, sok különböző (folyamatos) érték fordulhat elő, ezért gyakran intervallumokat használunk. Egy lehetséges gyakorisági táblázat:

  • 150–159 cm: 3 fő
  • 160–169 cm: 8 fő
  • 170–179 cm: 12 fő
  • 180–189 cm: 5 fő

Minden osztályhoz érdemes feltüntetni: az osztályhatárokat, az abszolút gyakoriságot (fi), a relatív gyakoriságot (fi / n), a kumulatív gyakoriságot, valamint tetszés szerint az osztályközépértéket (pl. 170–179 → 174,5 cm), amelyet gyakran használnak középérték-közelítésekhez.

Hogyan készítsünk gyakorisági eloszlást — lépések

  1. Gyűjtsük össze a mintaadatokat és rendezzük (ha szükséges).
  2. Döntsük el, diszkrét vagy folyamatos változóról van-e szó.
  3. Ha csoportosítunk, válasszuk ki az osztályok számát és szélességét (egyenes vagy különböző szélességű osztályok).
  4. Számoljuk meg az egyes értékek vagy osztályok gyakoriságát (abszolút gyakoriság, fi).
  5. Számoljuk ki a relatív gyakoriságot (fi / n) és szükség esetén a kumulatív gyakoriságot.
  6. Ábrázoljuk az eredményt (oszlopdiagram, hisztogram, ogív, gyakorisági poligon, kördiagram stb.).

Szabályok és irányelvek osztályok kiválasztásához

  • Sturges szabálya: k ≈ 1 + log2(n) (vagy 1 + 3,322 log10(n)) ad egy egyszerű becslést az osztályok számára.
  • Freedman–Diaconis szabály (bin szélességhez): h = 2 · IQR / n^(1/3), ahol IQR az interkvartilis terjedelem. Ez érzékeny az adatok szórására és robustusabb nagyobb minták esetén.
  • Kerüljük a túl sok vagy túl kevés osztályt: túl sok zajt ad, túl kevés pedig elrejti a fontos mintázatokat.

Ábrázolási módok

  • Oszlopdiagram (bar chart): diszkrét kategóriákhoz alkalmas (pl. Likert-válaszok).
  • Hisztogram: csoportosított folyamatos adatokhoz; az oszlopok területe arányos az osztály gyakoriságával.
  • Gyakorisági poligon: hisztogram középértékeit összekötő vonal, jól szemlélteti az eloszlás alakját.
  • Ogív (kumulatív görbe): kumulatív gyakoriságot ábrázol; hasznos kvantilisek és medián becsléséhez.
  • Kördiagram: relatív gyakoriságok százalékos megjelenítésére alkalmas, de sok kategória esetén kevésbé áttekinthető.
  • Kerneldensitás-közelítés: simított görbe, amely folyamatos becslést ad az adatok sűrűségére (alternatíva a hisztogramnak).

Kapcsolódó fogalmak és mérések

  • Módusz: a leggyakrabban előforduló érték(ek) — a gyakorisági eloszlásból könnyen meghatározható.
  • Medián, átlag: a gyakorisági eloszlás segít eldönteni, melyik középérték a leginformatívabb (pl. ferde eloszlásnál a medián tartósabb).
  • Szóródás: variancia, szórás, illetve az osztályok szélessége és az IQR ad információt az adatok szóródásáról.

Gyakori hibák és figyelmeztetések

  • Nem megfelelő osztályszám vagy bin-szélesség téves képet adhat az eloszlásról.
  • Eltérő szélességű osztályoknál a hisztogram oszlopainak magassága helyett a területre kell figyelni.
  • Üres osztályok kezelése: néha informatívak (rések), néha zavaróak — döntsük el a kontextus alapján.
  • Mintaválasztás torzulása befolyásolhatja a gyakorisági eloszlást; mindig gondoljuk át a minta reprezentativitását.

Eszközök és szoftverek

Gyakorisági eloszlások készítéséhez és ábrázolásához sok eszköz használható: Excel, R (hist, ggplot2), Python (pandas, matplotlib, seaborn), SPSS, Stata és számos statisztikai csomag. Ezek automatikusan kiszámolják az abszolút/relatív/kumulatív gyakoriságokat és készítenek ábrákat.

Összefoglalva: a gyakorisági eloszlás alapvető statisztikai eszköz az adatok összegzésére és vizualizálására. A helyes osztályozás, a relatív és kumulatív gyakoriságok számítása, valamint az ábrázolás módjának megválasztása kulcsfontosságú az adatok helyes értelmezéséhez.

Példa egy (abszolút) gyakorisági eloszlásra. Ez Angola népességpiramisa a 2005-ös évre vonatkozóan.Zoom
Példa egy (abszolút) gyakorisági eloszlásra. Ez Angola népességpiramisa a 2005-ös évre vonatkozóan.

Ez Kína népességpiramisa a 2005-ös évre.Zoom
Ez Kína népességpiramisa a 2005-ös évre.

Alkalmazások

A frekvenciatáblázott adatok kezelése és működtetése sokkal egyszerűbb, mint a nyers adatokon történő működtetés. Vannak egyszerű algoritmusok a medián, az átlag (statisztika), a szórás stb. kiszámítására ezekből a táblázatokból.

A statisztikai hipotézisvizsgálat a gyakorisági eloszlások közötti különbségek és hasonlóságok értékelésén alapul. Ez az értékelés magában foglalja a központi tendencia vagy az átlagok mérését, mint például az átlag és a medián, valamint a változékonyság vagy a statisztikai szórás mérését, mint például a szórás vagy a szórás.

Egy gyakorisági eloszlás akkor ferde, ha az átlag és a medián eltér egymástól. A gyakorisági eloszlás kurtózisa a pontszámok koncentrációja az átlagnál, vagy az, hogy grafikusan ábrázolva - például hisztogramban - mennyire csúcsosnak tűnik az eloszlás. Ha az eloszlás csúcsosabb, mint a normális eloszlás, akkor leptokurtikusnak, ha kevésbé csúcsos, akkor platykurtikusnak nevezzük.

A gyakorisági eloszlásokat a kódok feltörésére szolgáló gyakorisági elemzésben is használják, és a különböző nyelvekben a betűk relatív gyakoriságára utalnak.

Kérdések és válaszok

K: Mi az a gyakorisági eloszlás?


V: A gyakorisági eloszlás azoknak az értékeknek a mennyiségi sorrendbe rendezett listája, amelyeket egy változó egy mintában felvesz. Megmutatja, hogy az egyes értékek hányszor fordulnak elő.

K: Hogyan nézhet ki egy ötfokozatú Likert-skálára adott válaszok gyakorisági eloszlása?


V: Az ötfokozatú Likert-skálára adott válaszok gyakorisági eloszlása úgy nézhet ki, mint egy egyszerű táblázat, amely megmutatja, hogy hányan értékelték a skála egyes pontjait.

K: Mi a két hátránya az ilyen típusú táblázat használatának?


V: Az ilyen típusú táblázat használatának két hátránya, hogy nehéz vagy akár lehetetlen is lehet, ha folyamatos értékekkel van dolgunk, vagy ha túl sok lehetséges érték van.

K: Miben különbözik ez a séma, ha folytonos értékekkel vagy nagyszámú lehetséges értékkel foglalkozunk?


V: Folyamatos értékek vagy nagyszámú lehetséges értékek kezelése esetén egy kissé eltérő, értéktartományon alapuló séma használható.

K: Hogyan nézhet ki a tanulók magasságára vonatkozó gyakorisági táblázat?


V: A tanulói magasságok gyakorisági táblázata mutathat tartományokat és azt, hogy hány tanuló esik az egyes tartományokba.


K: Milyen információt nyújt a gyakorisági eloszlás?


V: A gyakorisági eloszlás információt nyújt arról, hogy bizonyos változók milyen gyakran fordulnak elő a mintákban, és hogyan oszlanak meg a minták között.


Keres
AlegsaOnline.com - 2020 / 2025 - License CC3