Statisztikai mintavétel
A statisztikában a minta a sokaság egy része. A mintát gondosan választják ki. A mintának tisztességesen, torzítás nélkül kell reprezentálnia a teljes sokaságot. A mintákra azért van szükség, mert a populációk olyan nagyok lehetnek, hogy az összes egyed megszámlálása nem lehetséges vagy nem praktikus.
Ezért egy statisztikai probléma megoldása általában a mintavétellel kezdődik. A mintavételezés arról szól, hogy mely adatokat választjuk ki a későbbi elemzéshez. Példaként tegyük fel, hogy egy tanulmányhoz egy tó szennyezettségét kell elemezni. Attól függően, hogy a vízmintákat hol vették, a tanulmányok eltérő eredményekkel zárulhatnak. Általános szabályként a mintáknak véletlenszerűnek kell lenniük. Ez azt jelenti, hogy az egyik egyed kiválasztásának esélye vagy valószínűsége megegyezik bármely más egyed kiválasztásának esélyével.
A gyakorlatban a véletlenszerű mintavétel mindig egy jól meghatározott eljárással történik. Az eljárás egy szabályrendszer, a lépések papírra vetett és pontosan követett sorozata. Még így is maradhat némi torzítás a mintában. Vegyük például azt a problémát, hogy egy választási felmérés eredményének előrejelzésére szolgáló mintát kell megtervezni. Minden ismert módszernek megvannak a maga problémái, és a választások eredményei gyakran eltérnek a mintán alapuló előrejelzésektől. Ha a véleményeket telefonok segítségével vagy az utcán történő találkozással gyűjtjük, a minta mindig torzított. Ezért az ilyen esetekben soha nem lehetséges teljesen semleges minta. Ilyen esetekben egy statisztikus elgondolkodik azon, hogyan mérje az elfogultság mértékét, és vannak módszerek ennek becslésére.
Hasonló a helyzet akkor is, amikor a tudósok egy fizikai tulajdonságot mérnek, például egy fémdarab súlyát vagy a fény sebességét. Ha egy tárgyat érzékeny berendezéssel mérünk meg, apró eltéréseket kapunk. Egyetlen mérési rendszer sem tökéletes. Becslések sorozatát kapjuk, amelyek mindegyike egy-egy mérés. Ezek minták, bizonyos fokú hibával. A statisztika arra szolgál, hogy leírja a hibát, és elemzést végezzen az ilyen jellegű adatokon.
Különféle minták léteznek:
Határrendőrök illegális kábítószer után kutatnak egy speciálisan kiképzett kutyával: Ha minden tizedik autót ellenőriznek, akkor elfogulatlan mintát vesznek.
Rétegzett mintavétel
Ha egy populációnak nyilvánvalóan vannak alpopulációi, akkor minden egyes alpopulációból mintát kell venni. Ezt nevezzük rétegzett mintavételnek. A rétegzett mintavételt rétegzett véletlen mintavételnek is nevezik. A rétegzett mintavételt gyakran arányként, például százalékban (%) ábrázolják.
Tegyük fel, hogy egy kísérletben a felnőttek jövedelmének mintavételét tűzték ki célul. Nyilvánvaló, hogy a főiskolát végzettek jövedelme eltérhet a nem diplomásokétól. Tegyük fel, hogy a férfi diplomások száma az összes felnőtt férfi 30%-a (képzeletbeli számok). Ekkor a teljes minta 30%-át véletlenszerűen kiválasztott férfi diplomásokból, 70%-át pedig nem diplomásokból álló férfiakból állítanánk össze. Ismételje meg a folyamatot a nők esetében, mert a női diplomások aránya eltér a férfiakétól. Így kapjuk meg a felnőtt lakosság nem és főiskolai végzettség szerint rétegzett mintáját. A következő lépés az lenne, hogy az egyes alpopulációkat korcsoportok szerint osszuk fel, mert (például) a diplomások középkorban több jövedelemre tehetnek szert a nem diplomásokhoz képest.
A rétegzett minta egy másik típusa a variációval foglalkozik. Itt nagyobb mintákat vesznek a változékonyabb részsokaságokból, hogy az összefoglaló statisztikák, mint például az átlagok és a szórások, megbízhatóbbak legyenek.
Kérdések és válaszok
K: Mi az a minta a statisztikában?
V: A statisztikában a minta a populáció egy része, amelyet gondosan kiválasztottak, hogy tisztességesen és torzítás nélkül reprezentálja a teljes populációt.
K: Miért van szükség mintákra?
V: A mintákra azért van szükség, mert a populációk olyan nagyok lehetnek, hogy az összes egyed megszámlálása nem lehetséges vagy nem praktikus. Ezért egy statisztikai probléma megoldása általában mintavétellel kezdődik.
K: Hogyan ábrázolják a mintát?
V: Ha a mintát adathalmazként kezeljük, akkor gyakran nagybetűkkel, például X és Y betűkkel ábrázoljuk, elemeit kisbetűvel (pl. x3), a minta méretét pedig n betűvel.
K: Milyenek legyenek a minták?
V: Általános szabályként a mintáknak véletlenszerűnek kell lenniük, ami azt jelenti, hogy az egyik egyed kiválasztásának esélye vagy valószínűsége megegyezik bármely más egyed kiválasztásának esélyével. A gyakorlatban a véletlenszerű mintákat mindig egy jól meghatározott eljárással veszik.
K: Maradhat-e torzítás a mintákban?
V: Még jól meghatározott mintavételi eljárások alkalmazása esetén is maradhat némi torzítás a mintában olyan tényezők miatt, mint például az, hogy ki veszi fel a telefonhívásokat, vagy ki jár bizonyos utcákon, amikor véleményeket gyűjtünk egy választási felmérés előrejelzéséhez. Ilyen esetekben nehéz lehet teljesen semleges mintát kapni, de a statisztikusok meg tudják mérni, hogy mennyi torzítás marad jelen.
K: Vannak különböző típusú minták?
V: Igen, léteznek különböző típusú minták, köztük teljes minták, amelyek minden olyan elemet tartalmaznak, amelyek adott tulajdonságokkal rendelkeznek, és torzítatlan/reprezentatív minták, amelyek a teljes mintákból való elemkiválasztást jelentik, anélkül, hogy azok tulajdonságaitól függenének. A mintavételezés módja és mérete befolyásolja az adatok megítélését.