Statisztika

Szerző: Leandro Alegsa

18-06-2022 19:30

A statisztika az alkalmazott matematika egyik ága, amely az adatgyűjtéssel, szervezéssel, elemzéssel, értelmezéssel és bemutatással foglalkozik. A leíró statisztika az adatokat foglalja össze. A következtetési statisztika előrejelzéseket készít. A statisztika számos más terület, például a tudomány, az orvostudomány, a közgazdaságtan, a pszichológia, a politika és a marketing tanulmányozását segíti. Aki statisztikával foglalkozik, azt statisztikusnak nevezik. Amellett, hogy a "statisztika" szó egy tudományterület neve, az adatok vagy összefüggések leírására használt számokra is utal.

Történelem

Az első ismert statisztika a népszámlálási adatok. A babilóniaiak i. e. 3500 körül, az egyiptomiak i. e. 2500 körül, az ókori kínaiak pedig i. e. 1000 körül végeztek népszámlálást.

A 16. századtól kezdve olyan matematikusok, mint Gerolamo Cardano, kidolgozták a valószínűségszámítás elméletét, amely a statisztikát tudománnyá tette. Azóta az emberek számos dologról gyűjtöttek és tanulmányoztak statisztikákat. Fák, tengeri csillagok, csillagok, sziklák, szavak, szinte minden, amit meg lehet számolni, a statisztika tárgya volt.

Adatgyűjtés

Mielőtt statisztikákkal leírhatnánk a világot, adatokat kell gyűjtenünk. A statisztikában gyűjtött adatokat méréseknek nevezzük. Miután adatokat gyűjtöttünk, egy vagy több számot használunk minden egyes megfigyelés vagy mérés leírására. Tegyük fel például, hogy ki akarjuk deríteni, mennyire népszerű egy bizonyos tévéműsor. Kiválaszthatjuk az emberek egy csoportját (az úgynevezett mintát) a nézők teljes populációjából. Ezután megkérdezünk minden egyes nézőt a mintában, hogy milyen gyakran nézik a műsort. A minta olyan adat, amelyet láthatunk, a populáció pedig olyan adat, amelyet nem láthatunk (mivel nem kérdeztünk meg minden nézőt a populációban). Egy másik példa: ha azt szeretnénk megtudni, hogy egy bizonyos gyógyszer segíthet-e csökkenteni a vérnyomást, akkor adhatnánk a gyógyszert az embereknek egy ideig, és mérhetnénk a vérnyomásukat előtte és utána.

Leíró és következtető statisztika

A látható adatokat leíró számokat leíró statisztikáknak nevezzük. Azokat a számokat, amelyek előrejelzéseket tesznek a nem látható adatokról, következtetési statisztikáknak nevezik.

A leíró statisztika magában foglalja a számok használatát az adatok jellemzőinek leírására. Például a nők átlagos testmagassága az Egyesült Államokban egy leíró statisztika, amely egy populáció (az Egyesült Államokban élő nők) egy jellemzőjét (átlagos testmagasság) írja le.

Az eredmények összegzése és leírása után azok felhasználhatók előrejelzésre. Ezt nevezzük következtetési statisztikának. Egy példa: egy állat mérete sok tényezőtől függ. E tényezők egy részét a környezet szabályozza, másokat viszont az öröklés. Egy biológus ezért készíthet egy olyan modellt, amely azt mondja, hogy nagy a valószínűsége annak, hogy az utódok kis méretűek lesznek, ha a szülők kis méretűek voltak. Ez a modell valószínűleg lehetővé teszi, hogy a méretet jobban megjósoljuk, mintha csak véletlenszerűen találgatnánk. Annak tesztelése, hogy egy bizonyos gyógyszer alkalmas-e egy bizonyos állapot vagy betegség gyógyítására, általában úgy történik, hogy összehasonlítják a gyógyszert kapó emberek eredményeit a placebót kapó emberek eredményeivel.

Módszerek

Leggyakrabban felmérések vagy kísérletek segítségével gyűjtünk statisztikai adatokat. A közvélemény-kutatás például a felmérés egyik fajtája. Kiválasztunk egy kis számú embert, és kérdéseket teszünk fel nekik. Ezután az ő válaszaikat használjuk fel adatként.

A felmérés vagy adatgyűjtés során kiválasztandó személyek kiválasztása fontos, mivel közvetlenül befolyásolja a statisztikákat. Amikor a statisztikák elkészülnek, már nem lehet meghatározni, hogy mely egyéneket veszik fel. Tegyük fel, hogy egy nagy tó vízminőségét szeretnénk mérni. Ha a szennyvízcsatorna mellett veszünk mintát, más eredményt kapunk, mint ha a tó egy távoli, nehezen megközelíthető pontján veszünk mintát.

A mintavétel során általában kétféle problémával találkozhatunk:

Ha sok minta van, a minták valószínűleg nagyon közel lesznek ahhoz, ami a valós populációban van. Ha azonban nagyon kevés minta van, akkor a minták nagyon eltérhetnek attól, amit a valós populációban találunk. Ezt a hibát véletlen hibának nevezzük (lásd: Hibák és reziduumok a statisztikában).
A mintául szolgáló személyeket gondosan kell kiválasztani, általában véletlenszerűen választják ki őket. Ha ez nem így van, akkor a minták nagyon eltérőek lehetnek a teljes populációban valójában mért értékektől. Ez akkor is igaz, ha nagyszámú mintát vesznek. Ezt a fajta hibát torzításnak nevezzük.

Hibák

A véletlen hibákat csökkenthetjük, ha nagyobb mintát veszünk, és elkerülhetünk némi torzítást a véletlenszerű kiválasztással. Néha azonban nehéz nagy véletlenszerű mintákat venni. És torzítás akkor is előfordulhat, ha különböző embereket nem kérdezünk meg, vagy nem hajlandóak válaszolni a kérdéseinkre, vagy ha tudják, hogy hamis kezelést kapnak. Ezeket a problémákat nehéz lehet orvosolni. Lásd még standard hiba.

Leíró statisztika

Az adatok közepének megtalálása

Az adatok közepét átlagnak nevezzük. Az átlag a populáció egy tipikus egyedéről árulkodik. Háromféle átlagot használnak gyakran: az átlagot, a mediánt és a móduszt.

Az alábbi példák ezt a mintaadatot használják:

Név | A B C D E F G H I J --------------------------------------------- score| 23 26 49 49 49 57 64 66 78 82 92

Átlag

Az átlag képlete a következő

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {\x}}={\frac {1}{N}}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}}{N}}}} ${\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}$

Ahol x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}} $x_{1},x_{2},\ldots ,x_{N}$ az adatok és N {\displaystyle N} $N$ a populáció mérete. (lásd a Sigma jelölést).

Ez azt jelenti, hogy az összes értéket összeadja, majd elosztja az értékek számával.

Példánkban x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {\displaystyle {\bar {x}}=(23+26+49+49+49+57+64+66+78+82+92)/10=58.6} ${\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6$

Az átlaggal az a probléma, hogy semmit sem árul el arról, hogy az értékek hogyan oszlanak el. A nagyon nagy vagy nagyon kicsi értékek nagymértékben megváltoztatják az átlagot. A statisztikában ezek a szélsőértékek lehetnek mérési hibák, de néha a sokaság valóban tartalmazza ezeket az értékeket. Például, ha egy szobában 10 ember van, aki 10 $/napot keres, és 1, aki 1 000 000 $/napot. Az adatok átlaga 90 918 $/nap. Bár ez az átlagos összeg, az átlag ebben az esetben nem az az összeg, amit bármelyik személy keres, így bizonyos célokra használhatatlan.

Ez a "számtani átlag". Bizonyos célokra más fajták is hasznosak.

Median

A medián az adatok középső eleme. A medián megtalálásához az adatokat a legkisebb számtól a legnagyobb számig rendezzük, majd kiválasztjuk a középső számot. Ha páros számú adat van, akkor nem lesz olyan szám, amelyik pont középen van, ezért kiválasztjuk a két középsőt, és kiszámítjuk az átlagukat. Példánkban 10 adat van, a két középső az "57" és a "64", így a medián (57+64)/2 = 60,5. Egy másik példa, hasonlóan az átlagnál bemutatott jövedelmi példához, tekintsünk egy szobát, ahol 10 ember van, akiknek a jövedelme 10, 20, 20, 40, 50, 60, 90, 90, 100 és 1 000 000 dollár, a medián 55 dollár, mert az 55 dollár a két középső szám, az 50 és 60 dollár átlaga. Ha az 1 000 000 dolláros szélsőértéket figyelmen kívül hagyjuk, akkor az átlag 53 dollár lesz. Ebben az esetben a medián közel van ahhoz az értékhez, amelyet akkor kapunk, ha a szélsőértéket kidobjuk. A medián megoldja a szélsőértékek problémáját, ahogyan azt az átlag fenti definíciójában leírtuk.

Mód

A módusz a leggyakoribb adatelem. Például az angol nyelvben a leggyakoribb betű az "e" betű. Azt mondanánk, hogy az "e" a betűk eloszlásának módusza.

Például, ha egy szobában 10 ember van 10, 20, 20, 20, 40, 50, 60, 90, 90, 90, 90, 100 és 1 000 000 dollár jövedelemmel, akkor a módusz 90 dollár, mert 90 dollár háromszor fordul elő, és minden más érték háromnál kevesebbszer fordul elő.

Egynél több üzemmód is lehet. Például, ha egy szobában 10 ember van, akiknek a jövedelme 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 90, 100 és 1 000 000 dollár, akkor a móduszok a 20 és 90 dollár. Ez bimodális, vagyis két módusza van. A bimodalitás nagyon gyakori, és gyakran azt jelzi, hogy az adatok két különböző csoport kombinációja. Például az Egyesült Államokban élő felnőttek átlagos testmagassága bimodális eloszlású. Ennek oka, hogy a férfiak és a nők külön átlagmagassága 1,763 m (5 ft 9 + 1⁄2 in) a férfiaknál és 1,622 m (5 ft 4 in) a nőknél. Ezek a csúcsok akkor tűnnek fel, ha mindkét csoportot összevonjuk.

A módusz az egyetlen olyan átlagolási forma, amely olyan adatok esetében használható, amelyek nem rendezhetők sorrendbe.

Az adatok terjedésének meghatározása

Egy másik dolog, amit egy adathalmazról elmondhatunk, az az, hogy mennyire szóródik. Egy adathalmaz szóródásának leírására a szórás gyakori módja a szórás. Ha egy adathalmaz szórása kicsi, akkor az adatok többsége nagyon közel van az átlaghoz. Ha azonban a szórás nagy, akkor az adatok nagy része nagyon eltér az átlagtól.

Ha az adatok a normál eloszlásnak nevezett általános mintázatot követik, akkor nagyon hasznos a szórás ismerete. Ha az adatok ezt a mintázatot követik (azt mondjuk, hogy az adatok normális eloszlásúak), akkor 100 adatból körülbelül 68 fog eltérni az átlagtól a szórásnál kisebb mértékben. Nem csak ez, hanem 100 mérésből körülbelül 95 fog eltérni az átlagtól kevesebb mint a szórás kétszeresénél, és 1000-ből körülbelül 997 fog közelebb lenni az átlaghoz, mint három szórás.

Egyéb leíró statisztikák

A statisztikát arra is használhatjuk, hogy kiderítsük, hogy egy csoportban az emberek vagy dolgok bizonyos százaléka, százalékos aránya, száma vagy töredéke tesz valamit, vagy egy bizonyos kategóriába tartozik.

A társadalomtudósok például statisztikák segítségével megállapították, hogy a világon élő emberek 49%-a férfi.

Kapcsolódó szoftverek

A statisztikusok támogatására számos statisztikai szoftvert fejlesztettek ki:

SAS Institute
SPSS (IBM által készített)

Kérdések és válaszok

K: Mi az a statisztika?

V: A statisztika az alkalmazott matematika egyik ága, amely az adatok gyűjtésével, rendszerezésével, elemzésével, olvasásával és bemutatásával foglalkozik.

K: Mi a statisztika két típusa?

V: A statisztika két típusa a leíró és a következtető statisztika. A leíró statisztika az adatokról készít összefoglalókat, míg a következtető statisztika előrejelzéseket készít.

K: Hogyan segít a statisztika más területeken?

V: A statisztika számos más területen, például a tudomány, az orvostudomány, a közgazdaságtan, a pszichológia, a politika és a marketing tanulmányozásában is segít.

K: Kik dolgoznak a statisztika területén?

V: Azt, aki a statisztika területén dolgozik, statisztikusnak nevezik.

K: Mit jelent a statisztika szó?

V: Amellett, hogy a "statisztika" szó egy tudományterület neve, jelenthet számokat is, amelyeket adatok vagy összefüggések leírására használnak.

K: Milyen tevékenységeket végeznek a statisztikusok?

V: A statisztikusok olyan tevékenységeket végeznek, mint az adatok gyűjtése, rendszerezése, elemzése, olvasása és bemutatása.

Keres