A szórás egy olyan szám, amely azt mutatja meg, hogy egy csoport mérései hogyan szóródnak az átlagtól (átlag) vagy a várható értéktől. Az alacsony szórás azt jelenti, hogy a legtöbb szám közel van az átlaghoz. A magas szórás azt jelenti, hogy a számok jobban szóródnak.

A bejelentett hibahatár általában a szórás kétszerese. A tudósok általában a számok átlagtól való szórását jelentik a kísérletek során. Gyakran úgy döntenek, hogy csak a szórás kétszeresénél vagy háromszorosánál nagyobb különbségek fontosak. A szórás a pénzügyekben is hasznos, ahol a megkeresett kamatok szórása megmutatja, hogy egy személy megkeresett kamatai mennyire térhetnek el az átlagtól.

Sokszor csak egy minta vagy egy csoport egy része mérhető. Ilyenkor az egész csoportra vonatkozó szóráshoz közeli számot lehet találni egy kissé eltérő egyenlet segítségével, amelyet minta szórásnak nevezünk, és amelyet az alábbiakban ismertetünk.

Mit mér pontosan a szórás?

Röviden: a szórás azt mutatja meg, hogy az egyes értékek átlagosan mennyire térnek el az átlagtól. Minél nagyobb a szórás, annál szélesebb a mérési eredmények eloszlása. A szórás négyzetének neve a variancia, amely a szórás négyzete. A variancia előnye, hogy algebrailag kényelmesebb, hátránya, hogy mértékegysége a négyzetes egység (például m²), ezért gyakran a szórást használjuk, mert annak mértékegysége megegyezik az eredeti adatoké.

Populációs és mintabeli szórás — képletek és miért különböznek

Populációs (teljes halmazra számolt) szórás:
σ = sqrt( (1/N) Σ (xi − μ)² )
Itt N az összes elem száma, μ a populáció átlaga, xi az egyes megfigyelések.

Minta szórása (amikor csak egy minta áll rendelkezésre):
s = sqrt( (1/(n−1)) Σ (xi − x̄)² )
Itt n a minta elemszáma, x̄ a mintaátlag. A nevezőben szereplő n−1-et Bessel-korrekciónak nevezik, és azért használjuk, mert így a minta varianciája torzítatlan becslést ad a populáció varianciájára.

Hogyan számoljuk ki lépésről lépésre?

  1. Számold ki az átlagot (populáció esetén μ, minta esetén x̄).
  2. Minden értéknél vond ki az átlagot, és négyzetre emeld a különbséget: (xi − átlag)².
  3. Összegezd ezeket a négyzeteket: Σ (xi − átlag)².
  4. Oszd el az összeget N-nel (populáció) vagy n−1–gyel (minta).
  5. Vedd a kapott érték négyzetgyökét — ez a szórás.

Egyszerű példa

Legyen a minta: 2, 4, 4, 4, 5, 5, 7, 9.

  • Összeg = 40, n = 8, mintaátlag x̄ = 40/8 = 5.
  • Négyzetes eltérések: (2−5)²=9, (4−5)²=1 (háromszor), (5−5)²=0 (kétszer), (7−5)²=4, (9−5)²=16. Összegük = 32.
  • Populációs variancia esetén: 32/8 = 4 → σ = √4 = 2.
  • Minta variancia esetén (Bessel-korrekció): 32/(8−1) = 32/7 ≈ 4,571 → s ≈ √4,571 ≈ 2,14.

Értelmezés és használat

  • A szórás egy érthető mérték arra, hogy mennyire „szóródnak” az adatok. Például egy termék gyártási méreteinek kis szórása jobb minőség-ellenőrzést jelez.
  • Normális eloszlásnál az adatok körülbelül 68%‑a esik ±1σ, 95% körül ±2σ, és 99,7% körül ±3σ tartományba (ez az ún. 68–95–99,7 szabály).
  • Amikor kockázatot vagy megbízhatóságot értékelünk (például pénzügyekben), a nagyobb szórás nagyobb kockázatot jelenthet, mert az eredmények kevésbé kiszámíthatóak.

Mikor érdemes más mutatót használni?

Ha az adatok erősen torzítottak vagy sok kiugró érték van, a szórás érzékeny lehet ezekre. Ilyen esetekben érdemes megfontolni a mediánt és a medián abszolút eltérést (MAD), vagy robusztusabb statisztikákat, amelyek kevésbé érzékenyek a kiugrókra.

Összefoglalás

A szórás fontos és gyakran használt statisztikai mutató, amely megmutatja az adatok átlagtól való szóródását. Különbséget kell tenni populációs és mintabeli számítás között (n ill. n−1 nevező), és tudatosan kell alkalmazni, különösen, ha az adatok eloszlása nem normális vagy kiugró értékeket tartalmaz.