Hisztogram: definíció, magyarázat és példák a statisztikában
Ismerd meg a hisztogram definícióját, működését és gyakorlati példáit — könnyen követhető magyarázat statisztikában, ábrák és értelmezési tippek.
A hisztogram a statisztika egyik alapvető fogalma és egyik leggyakoribb grafikus megjelenítés. Egy hisztogram az adatokat intervallumokba (ún. "bin"-ekbe) sorolja, és megmutatja, hogy az egyes intervallumokban hány megfigyelés található — azaz az adat eloszlását szemlélteti. Gyakran egy sok kategóriát tartalmazó táblázatból készített ábrának tekinthető: a táblázat megmondja, hogy az egyes kategóriákban (vagy intervallumokban) hány minta van, és ezt oszlopok formájában látjuk a hisztogramon.
A hisztogram szó a görög histos és gramma szavakból származik. A histosz „hálót” vagy „árbocot” jelent, a gramma pedig „rajzot”, „feljegyzést” vagy „írást”. Ebből az etimológiából következik, hogy a hisztogram szó szerint valaminek a szerkezetéről, eloszlásáról készített rajzot jelöl — azaz egy adatállomány szerkezetének vizuális összegzését. A hisztogram szerepét és értelmezését részletesebben az alábbiakban ismertetjük.
Mi látható a hisztogramból?
- Gyakoriságok: minden oszlop (bin) magassága megmutatja, hány adatpont esik az adott intervallumba.
- Eloszlás formája: láthatóvá válik, hogy az adatok szimmetrikusak-e, ferdék-e (jobb- vagy balra eltolódottak), vannak-e kiugró értékek, vagy több csúcsuk (modális szerkezet) van-e.
- Koncentráció: hol gyűlnek össze az adatok (csúcsok) és hol ritkák.
Hogyan készül egy hisztogram?
- 1. Döntsük el az intervallumok (bin-ek) számát és szélességét. Az intervallumok lehetnek egyenlő szélességűek vagy változóak.
- 2. Soroljuk be az összes adatpontot a megfelelő intervallumba.
- 3. Számoljuk meg, hány adatpont esik minden intervallumba — ez adja az oszlopok magasságát.
- 4. (Szükség szerint) normalizálhatjuk a magasságokat, hogy például relatív gyakoriságot (arányszázalék) vagy sűrűséget (valószínűségi sűrűség) kapjunk.
Gyakori beállítások és normálások
- Gyakoriság (counts): az oszlopok magassága a darabszámot mutatja.
- Relatív gyakoriság: minden oszlop magassága az összes minta arányát jelzi (például 0–1 vagy százalékban).
- Sűrűség (density): ha az oszlopok területét normalizáljuk úgy, hogy azok összege 1 legyen, akkor a hisztogram közelíti az elméleti valószínűségi sűrűségfüggvényt (ez különösen hasznos folytonos eloszlások esetén).
Hisztogram vs. oszlopdiagram (bar chart)
- A hisztogram folytonos vagy számszerű adatok eloszlását mutatja intervallumok formájában — az intervallumok egymás mellett vannak, és az egymás melletti oszlopok egységes folytonosságot sugallnak.
- Az oszlopdiagram kategóriás (nem számszerű) változók gyakoriságát mutatja; az oszlopok közötti távolság jelzi, hogy a kategóriák különállóak.
- Ha számszerű adatokat külön egységekbe (például „1”, „2”, „3” kategóriák) rendezzük és külön oszlopokat adunk, az gyakran inkább oszlopdiagram, nem hisztogram.
Példák
- Példa 1 — magasságok: egy osztály tanulóinak magasságait mérve a hisztogram megmutatja, hogy a legtöbb tanuló 160–170 cm közé esik-e, vagy a eloszlás jobbra vagy balra ferdült-e.
- Példa 2 — vizsgaeredmények: 0–100 pont közötti vizsgaeredmények hisztogramja segít felismerni, hogy több diák kapott-e magas (pl. 80–100) pontszámokat, vagy az eredmények eloszlása egyenletesebb.
Választás a bin-szélesség szerint — miért fontos?
A bin-szélesség (és a bin-ek száma) jelentősen befolyásolja a hisztogramról alkotott képet. Túl kevés bin elrejtheti a fontos részleteket (túl durva felbontás), míg túl sok bin zajos, nehezen értelmezhető ábrát eredményezhet. Gyakori szabályok a bin-szám meghatározására:
- Sturges-szabály: m ≈ log2(n) + 1 (egyszerű, kis mintákhoz)
- Freedman–Diaconis: bin szélesség = 2·IQR·n^(−1/3) (robosztusabb a kiugró értékekre, IQR = interkvartilis távolság)
Elemzési szempontok és tipikus hibák
- Kiugró értékek: a hisztogram segít észrevenni a kiugrókat, de a szélső bin-ek torzíthatják a képet.
- Túlzott interpretáció: egyetlen hisztogram nem bizonyít oksági kapcsolatot, csak azt mutatja meg, hogyan oszlanak el az adatok.
- Gyakori tévedés: az oszlopok területének és magasságának keverése — ha különböző bin-szélességeket használunk, a magasságok helyett a területet kell normalizálni a sűrűséghez.
Kiterjesztések és alternatívák
- Kumulatív hisztogram: az egyes bin-eknél felhalmozva mutatja a részleges gyakoriságot (például milyen arány esik az adott érték alá).
- Keresztelt (smoothed) eloszlás: kernel density estimate (KDE) simítja a hisztogramot, és folytonos sűrűségbecslést adhat.
- Boxplot és violin plot: alternatív vizualizációk, amelyek más aspektusokat (kvartilisek, medián, sűrűség) emelnek ki.
Gyakorlati megvalósítás — szoftverek
- R: hist(), ggplot2 csomagban geom_histogram()
- Python: matplotlib.pyplot.hist(), seaborn.histplot() vagy seaborn.displot() (KDE opcióval)
- Excel: beépített hisztogram diagramtípus vagy PivotChart + bin beállítások
Összefoglalás
A hisztogram egyszerű, de nagyon hasznos eszköz az adatok eloszlásának feltérképezésére. Lehetővé teszi a koncentrációk, a ferdeség, a többcsúcsúság és a kiugró értékek gyors felismerését. Ugyanakkor óvatosan kell bánni a bin-ek kiválasztásával és az ábra normalizálásával, hogy ne vezessen félre az adatok értelmezése.

Példa 100 normális eloszlású véletlen érték hisztogramjára
Hasonló ötletek
A hisztogram egyike a minőségellenőrzés hét alapvető eszközének, amelyek közé tartozik még a Pareto-diagram, az ellenőrző lap, az ellenőrző diagram, az ok-okozati diagram, a folyamatábra és a szórásdiagram.
A hisztogram általánosítása a kernel simítási technikák. Ez egy sima valószínűségi sűrűségfüggvényt konstruál a megadott adatokból.
Kérdések és válaszok
K: Mi az a hisztogram?
V: A hisztogram egy olyan grafikus megjelenítés, amely az érintett minták eloszlásáról árulkodik.
K: Mi a célja a hisztogramnak?
V: A hisztogram célja, hogy megmutassa az érintett minták eloszlását.
K: Mit jelent a hisztogram szó?
V: A hisztogram szó a görög histos és gramma szóból származik. A hisztosz hálót vagy árbocot jelent. A gramma rajzot, feljegyzést vagy írást jelent.
K: Mit jelent a hisztosz kifejezés görögül?
V: A "hisztosz" kifejezés görögül hálót vagy árbocot jelent.
K: Mit jelent a "gramma" kifejezés görögül?
V: A "gramma" kifejezés görögül rajzot, feljegyzést vagy írást jelent.
K: Mi a hisztogram közös jellemzője?
V: A hisztogram közös jellemzője a sok kategóriát tartalmazó táblázatból készített kép.
K: Milyen információt szolgáltat egy hisztogram táblázat?
V: Egy hisztogram-táblázat információt nyújt arról, hogy hány minta van az egyes kategóriákban.
Keres