Hisztogram: definíció, magyarázat és példák a statisztikában

Ismerd meg a hisztogram definícióját, működését és gyakorlati példáit — könnyen követhető magyarázat statisztikában, ábrák és értelmezési tippek.

Szerző: Leandro Alegsa

A hisztogram a statisztika egyik alapvető fogalma és egyik leggyakoribb grafikus megjelenítés. Egy hisztogram az adatokat intervallumokba (ún. "bin"-ekbe) sorolja, és megmutatja, hogy az egyes intervallumokban hány megfigyelés található — azaz az adat eloszlását szemlélteti. Gyakran egy sok kategóriát tartalmazó táblázatból készített ábrának tekinthető: a táblázat megmondja, hogy az egyes kategóriákban (vagy intervallumokban) hány minta van, és ezt oszlopok formájában látjuk a hisztogramon.

A hisztogram szó a görög histos és gramma szavakból származik. A histosz „hálót” vagy „árbocot” jelent, a gramma pedig „rajzot”, „feljegyzést” vagy „írást”. Ebből az etimológiából következik, hogy a hisztogram szó szerint valaminek a szerkezetéről, eloszlásáról készített rajzot jelöl — azaz egy adatállomány szerkezetének vizuális összegzését. A hisztogram szerepét és értelmezését részletesebben az alábbiakban ismertetjük.

Mi látható a hisztogramból?

  • Gyakoriságok: minden oszlop (bin) magassága megmutatja, hány adatpont esik az adott intervallumba.
  • Eloszlás formája: láthatóvá válik, hogy az adatok szimmetrikusak-e, ferdék-e (jobb- vagy balra eltolódottak), vannak-e kiugró értékek, vagy több csúcsuk (modális szerkezet) van-e.
  • Koncentráció: hol gyűlnek össze az adatok (csúcsok) és hol ritkák.

Hogyan készül egy hisztogram?

  • 1. Döntsük el az intervallumok (bin-ek) számát és szélességét. Az intervallumok lehetnek egyenlő szélességűek vagy változóak.
  • 2. Soroljuk be az összes adatpontot a megfelelő intervallumba.
  • 3. Számoljuk meg, hány adatpont esik minden intervallumba — ez adja az oszlopok magasságát.
  • 4. (Szükség szerint) normalizálhatjuk a magasságokat, hogy például relatív gyakoriságot (arányszázalék) vagy sűrűséget (valószínűségi sűrűség) kapjunk.

Gyakori beállítások és normálások

  • Gyakoriság (counts): az oszlopok magassága a darabszámot mutatja.
  • Relatív gyakoriság: minden oszlop magassága az összes minta arányát jelzi (például 0–1 vagy százalékban).
  • Sűrűség (density): ha az oszlopok területét normalizáljuk úgy, hogy azok összege 1 legyen, akkor a hisztogram közelíti az elméleti valószínűségi sűrűségfüggvényt (ez különösen hasznos folytonos eloszlások esetén).

Hisztogram vs. oszlopdiagram (bar chart)

  • A hisztogram folytonos vagy számszerű adatok eloszlását mutatja intervallumok formájában — az intervallumok egymás mellett vannak, és az egymás melletti oszlopok egységes folytonosságot sugallnak.
  • Az oszlopdiagram kategóriás (nem számszerű) változók gyakoriságát mutatja; az oszlopok közötti távolság jelzi, hogy a kategóriák különállóak.
  • Ha számszerű adatokat külön egységekbe (például „1”, „2”, „3” kategóriák) rendezzük és külön oszlopokat adunk, az gyakran inkább oszlopdiagram, nem hisztogram.

Példák

  • Példa 1 — magasságok: egy osztály tanulóinak magasságait mérve a hisztogram megmutatja, hogy a legtöbb tanuló 160–170 cm közé esik-e, vagy a eloszlás jobbra vagy balra ferdült-e.
  • Példa 2 — vizsgaeredmények: 0–100 pont közötti vizsgaeredmények hisztogramja segít felismerni, hogy több diák kapott-e magas (pl. 80–100) pontszámokat, vagy az eredmények eloszlása egyenletesebb.

Választás a bin-szélesség szerint — miért fontos?

A bin-szélesség (és a bin-ek száma) jelentősen befolyásolja a hisztogramról alkotott képet. Túl kevés bin elrejtheti a fontos részleteket (túl durva felbontás), míg túl sok bin zajos, nehezen értelmezhető ábrát eredményezhet. Gyakori szabályok a bin-szám meghatározására:

  • Sturges-szabály: m ≈ log2(n) + 1 (egyszerű, kis mintákhoz)
  • Freedman–Diaconis: bin szélesség = 2·IQR·n^(−1/3) (robosztusabb a kiugró értékekre, IQR = interkvartilis távolság)

Elemzési szempontok és tipikus hibák

  • Kiugró értékek: a hisztogram segít észrevenni a kiugrókat, de a szélső bin-ek torzíthatják a képet.
  • Túlzott interpretáció: egyetlen hisztogram nem bizonyít oksági kapcsolatot, csak azt mutatja meg, hogyan oszlanak el az adatok.
  • Gyakori tévedés: az oszlopok területének és magasságának keverése — ha különböző bin-szélességeket használunk, a magasságok helyett a területet kell normalizálni a sűrűséghez.

Kiterjesztések és alternatívák

  • Kumulatív hisztogram: az egyes bin-eknél felhalmozva mutatja a részleges gyakoriságot (például milyen arány esik az adott érték alá).
  • Keresztelt (smoothed) eloszlás: kernel density estimate (KDE) simítja a hisztogramot, és folytonos sűrűségbecslést adhat.
  • Boxplot és violin plot: alternatív vizualizációk, amelyek más aspektusokat (kvartilisek, medián, sűrűség) emelnek ki.

Gyakorlati megvalósítás — szoftverek

  • R: hist(), ggplot2 csomagban geom_histogram()
  • Python: matplotlib.pyplot.hist(), seaborn.histplot() vagy seaborn.displot() (KDE opcióval)
  • Excel: beépített hisztogram diagramtípus vagy PivotChart + bin beállítások

Összefoglalás

A hisztogram egyszerű, de nagyon hasznos eszköz az adatok eloszlásának feltérképezésére. Lehetővé teszi a koncentrációk, a ferdeség, a többcsúcsúság és a kiugró értékek gyors felismerését. Ugyanakkor óvatosan kell bánni a bin-ek kiválasztásával és az ábra normalizálásával, hogy ne vezessen félre az adatok értelmezése.

Példa 100 normális eloszlású véletlen érték hisztogramjáraZoom
Példa 100 normális eloszlású véletlen érték hisztogramjára

Hasonló ötletek

A hisztogram egyike a minőségellenőrzés hét alapvető eszközének, amelyek közé tartozik még a Pareto-diagram, az ellenőrző lap, az ellenőrző diagram, az ok-okozati diagram, a folyamatábra és a szórásdiagram.

A hisztogram általánosítása a kernel simítási technikák. Ez egy sima valószínűségi sűrűségfüggvényt konstruál a megadott adatokból.

Kérdések és válaszok

K: Mi az a hisztogram?


V: A hisztogram egy olyan grafikus megjelenítés, amely az érintett minták eloszlásáról árulkodik.

K: Mi a célja a hisztogramnak?


V: A hisztogram célja, hogy megmutassa az érintett minták eloszlását.

K: Mit jelent a hisztogram szó?


V: A hisztogram szó a görög histos és gramma szóból származik. A hisztosz hálót vagy árbocot jelent. A gramma rajzot, feljegyzést vagy írást jelent.

K: Mit jelent a hisztosz kifejezés görögül?


V: A "hisztosz" kifejezés görögül hálót vagy árbocot jelent.

K: Mit jelent a "gramma" kifejezés görögül?


V: A "gramma" kifejezés görögül rajzot, feljegyzést vagy írást jelent.

K: Mi a hisztogram közös jellemzője?


V: A hisztogram közös jellemzője a sok kategóriát tartalmazó táblázatból készített kép.

K: Milyen információt szolgáltat egy hisztogram táblázat?


V: Egy hisztogram-táblázat információt nyújt arról, hogy hány minta van az egyes kategóriákban.


Keres
AlegsaOnline.com - 2020 / 2025 - License CC3