Standard hiba
A standard hiba egy statisztika mintavételi eloszlásának szórása. A kifejezés használható a teljes csoportból vett mintából vett becslésre (jó becslés) is.
Egy csoport egy részének (az úgynevezett mintának) az átlaga a szokásos módja annak, hogy megbecsüljük az egész csoport átlagát. Gyakran túl nehéz vagy túl sok pénzbe kerül az egész csoportot megmérni. Ha azonban egy másik mintát mérünk, akkor annak az átlaga egy kicsit eltér az első mintától. Az átlag standard hibája egy módja annak, hogy megtudjuk, mennyire van közel a minta átlaga az egész csoport átlagához. Ez egy módja annak, hogy megtudjuk, mennyire lehetünk biztosak a minta átlagában.
A valós mérések során az egész csoportra vonatkozó átlag szórásának valódi értéke általában nem ismert. Ezért a standard hiba kifejezést gyakran a teljes csoportra vonatkozó valós értékhez közeli becslésként használják. Minél több mérés van egy mintában, annál közelebb lesz a becslés a teljes csoportra vonatkozó valós számhoz.
Egy torzítatlan, normális eloszlású hibával mintavételezett érték esetében a fenti ábrán látható, hogy a minták hány százaléka esik 0, 1, 2 és 3 standard eltéréssel a tényleges érték fölé és alá.
Hogyan találjuk meg az átlag standard hibáját
Az átlag standard hibájának meghatározásához sok mintát kell venni. Először minden egyes minta átlagát meg kell találni. Ezután meg kell találni a mintaátlagok átlagát és szórását. Az összes mintaátlag standard eltérése az átlag standard hibája. Ez sok munkát jelenthet. Néha túl nehéz vagy túl sok pénzbe kerül sok mintát venni.
Az átlag standard hibájának másik módja az, hogy olyan egyenletet használunk, amelyhez csak egy mintára van szükség. Az átlag standard hibáját általában a teljes csoportból vett minta standard eltérésének (minta standard eltérése) és a minta méretének négyzetgyökének hányadosával becsüljük.
S E x ¯ = s n {\displaystyle SE_\bar {x}}\ ={\frac {s}{\sqrt {n}}}}
ahol
s a minta szórása (azaz a populáció szórásának mintán alapuló becslése), és
n a mérések száma a mintában.
Milyen nagynak kell lennie a mintának ahhoz, hogy az átlag standard hibájának becslése közel legyen az egész csoportra vonatkozó tényleges standard hibához? A mintában legalább hat mérésnek kell lennie. Ekkor a minta átlagának standard hibája 5%-on belül lesz az átlag standard hibájához képest, ha az egész csoportot mérnék.
Javítások néhány esetben
Van egy másik egyenlet, amelyet akkor kell használni, ha a mérések száma a teljes csoport 5%-át vagy annál többet tesz ki:
Vannak speciális egyenletek, amelyeket akkor kell használni, ha egy minta 20-nál kevesebb mérésből áll.
Előfordul, hogy a minta egy helyről származik, még akkor is, ha az egész csoport szétszóródott. Az is előfordulhat, hogy egy minta rövid idő alatt készül, miközben az egész csoport hosszabb időt ölel fel. Ebben az esetben a mintában szereplő számok nem függetlenek. Ilyenkor speciális egyenletekkel próbálják ezt korrigálni.
Hasznosság
Gyakorlati eredmény: A mintában több mérés elvégzésével biztosabbá válhat egy átlagérték. Ekkor az átlag standard hibája kisebb lesz, mert a standard eltérés nagyobb számmal oszlik. Ahhoz azonban, hogy egy átlagérték bizonytalansága (az átlag standard hibája) fele akkora legyen, a minta méretének (n) négyszeresének kell lennie. Ennek oka, hogy a szórás osztva van a minta méretének négyzetgyökével. Ahhoz, hogy a bizonytalanság tizedannyi legyen, a mintaméretnek (n) százszor nagyobbnak kell lennie!
A standard hibákat könnyű kiszámítani, és sokat használják, mert:
- Ha több egyedi mennyiség standard hibája ismert, akkor a mennyiségek valamilyen függvényének standard hibája sok esetben könnyen kiszámítható;
- Ha az érték valószínűségi eloszlása ismert, akkor ez felhasználható a pontos konfidenciaintervallum jó közelítésére; és
- Ha a valószínűségi eloszlás nem ismert, más egyenleteket lehet használni a konfidenciaintervallum becslésére.
- Ahogy a minta mérete nagyon nagy lesz, a központi határértéktétel elve azt mutatja, hogy a mintában lévő számok nagyon hasonlítanak a teljes csoportban lévő számokhoz (normális eloszlásúak).
Relatív standard hiba
A relatív standard hiba (RSE) a standard hiba osztva az átlaggal. Ez a szám kisebb, mint egy. Ha megszorozzuk 100%-kal, akkor az átlag százalékos értékét kapjuk. Ez segít megmutatni, hogy a bizonytalanság fontos-e vagy sem. Vegyünk például két, a háztartások jövedelmére vonatkozó felmérést, amelyek mindkettő 50 000 dolláros mintaátlagot eredményez. Ha az egyik felmérés standard hibája 10 000 USD, a másiké pedig 5 000 USD, akkor a relatív standard hibák 20%, illetve 10%. Az alacsonyabb relatív standard hibával rendelkező felmérés jobb, mert pontosabb mérést végez (kisebb a bizonytalanság).
Valójában azok az emberek, akiknek átlagos értékeket kell ismerniük, gyakran eldöntik, hogy milyen kicsi legyen a bizonytalanság, mielőtt döntenének az információ felhasználásáról. Az Egyesült Államok Nemzeti Egészségügyi Statisztikai Központja például nem közöl átlagot, ha a relatív standard hiba meghaladja a 30%-ot. Az NCHS legalább 30 megfigyelést is megkövetel egy becslés jelentéséhez. []
Példa
A Mexikói-öböl vizében például sok vörös álsügér található. Ahhoz, hogy megtudjuk, hogy egy 42 cm hosszú vörös álsügér átlagosan mennyit nyom, nem lehet megmérni az összes 42 cm hosszú vörös álsügért. Ehelyett néhányat meg lehet mérni közülük. A ténylegesen megmért halakat mintának nevezzük. A táblázatban két, 42 cm hosszú vörös álsügér-mintát mutatunk be. Az első minta átlagos súlya 0,741 kg. A második minta átlagos (átlagos) súlya 0,735 kg, ami egy kicsit eltér az első mintától. Mindegyik átlag egy kicsit eltér attól az átlagtól, amely minden egyes 42 cm hosszú vörös álsügér méréséből adódna (ami egyébként nem lehetséges).
Az átlag bizonytalansága arra használható, hogy megtudjuk, a minták átlaga milyen közel van ahhoz az átlaghoz, amely az egész csoport méréséből adódna. Az átlag bizonytalanságát úgy becsüljük, hogy a minta szórását elosztjuk a minták számának négyzetgyökével mínusz eggyel. A táblázatból látható, hogy a két minta átlagának bizonytalanságai nagyon közel vannak egymáshoz. A relatív bizonytalanság is az átlag bizonytalansága osztva az átlaggal, szorozva 100%-kal. A relatív bizonytalanság ebben a példában 2,38% és 2,50% a két minta esetében.
Az átlag bizonytalanságának ismeretében megtudhatjuk, hogy a minta átlaga milyen közel van ahhoz az átlaghoz, amely az egész csoport méréséből adódna. Az egész csoportra vonatkozó átlag a) a minta átlaga plusz az átlag bizonytalansága és b) a minta átlaga mínusz az átlag bizonytalansága között van. Ebben a példában a Mexikói-öbölben élő összes 42 cm hosszú vörös álsügér átlagsúlya az első minta alapján várhatóan 0,723-0,759 kg, a második minta alapján pedig 0,717-0,753 kg lesz.
Példa a példában használt vörös álsügérre (más néven vörös dob, Sciaenops ocellatus).