Konfidenciaintervallum

A statisztikában a konfidenciaintervallum egy bizonyos paraméter becslésének egy speciális formája. Ezzel a módszerrel egyetlen érték helyett a paraméter elfogadható értékeinek teljes intervallumát adjuk meg, azzal a valószínűséggel együtt, hogy a paraméter valós (ismeretlen) értéke az intervallumon belül van. A konfidenciaintervallum a mintából származó megfigyeléseken alapul, ezért mintánként eltérő. Annak valószínűségét, hogy a paraméter az intervallumban lesz, konfidenciaszintnek nevezzük. Ezt nagyon gyakran százalékban adják meg. A megbízhatósági intervallumot mindig a megbízhatósági szinttel együtt adják meg. Az emberek beszélhetnek a "95%-os konfidenciaintervallumról". A konfidenciaintervallum végpontjait konfidenciahatároknak nevezik. Egy adott helyzetben egy adott becslési eljárás esetében minél magasabb a konfidencia-szint, annál szélesebb a konfidencia-intervallum.

A konfidenciaintervallum kiszámításához általában feltételezésekre van szükség a becslési folyamat természetével kapcsolatban - ez elsősorban egy parametrikus módszer. Az egyik gyakori feltételezés az, hogy annak a populációnak az eloszlása, amelyből a minta származik, normális. Mint ilyen, az alább tárgyalt konfidenciaintervallumok nem robusztus statisztikák, bár a robusztusság növelése érdekében változtatásokat lehet végrehajtani.

A "bizalom" kifejezés jelentése

A bizalom kifejezésnek a statisztikában hasonló jelentése van, mint a köznapi használatban. A köznapi használatban a 95%-os megbízhatóságra vonatkozó állítást általában úgy értelmezik, mint ami gyakorlatilag bizonyosságot jelent. A statisztikában a 95%-os megbízhatóságra vonatkozó állítás egyszerűen azt jelenti, hogy a kutató a nagyszámú lehetséges intervallum közül egy lehetséges intervallumot látott, amelyből húszból tizenkilenc intervallum tartalmazza a paraméter valódi értékét.

Gyakorlati példa

A factory assembly line fills margarine cups to a desired 250g +/- 5g

Egy gép margarinnal tölti meg a poharakat. A példában a gépet úgy állítják be, hogy a poharak tartalma 250 g margarin legyen. Mivel a gép nem tud minden poharat pontosan 250 grammal megtölteni, az egyes poharakba töltött tartalom némi szórást mutat, és X véletlen változónak tekintjük. Ezt a szórást feltételezzük, hogy normális eloszlású a kívánt 250 grammos átlag körül, 2,5 grammos szórással. Annak megállapításához, hogy a gép megfelelően kalibrált-e, véletlenszerűen kiválasztunk egy n = 25 margarinos pohárból álló mintát, és a poharakat megmérjük. A margarin súlya X1, ..., X25, egy véletlenszerű minta X-ből.

Ahhoz, hogy képet kapjunk a μ várakozásról, elegendő egy becslést adni. A megfelelő becslő a mintaátlag:

μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. } {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.}

A minta az x1, ...,x25 tényleges súlyokat mutatja, átlagértékkel:

x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 gramm . {\displaystyle {\bar {x}}={\frac {1}{25}}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{gramm}}. } {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}.}

Ha egy másik 25 csészéből álló mintát veszünk, könnyen számíthatunk arra, hogy 250,4 vagy 251,1 grammos értékeket találunk. A 280 grammos mintaátlagérték azonban rendkívül ritka lenne, ha a csészék átlagos tartalma valóban közel 250 gramm. A 250,2-es mintaátlag megfigyelt értéke körül egy egész intervallum van, amelyen belül, ha a teljes populáció átlaga valóban ebben a tartományban van, a megfigyelt adatok nem tekinthetők különösen szokatlannak. Az ilyen intervallumot a μ paraméter konfidenciaintervallumának nevezzük. Hogyan számoljuk ki az ilyen intervallumot? Az intervallum végpontjait a mintából kell kiszámítani, tehát ezek statisztikák, az X1, ..., X25 minta függvényei, tehát maguk is véletlen változók.

Esetünkben a végpontokat úgy határozhatjuk meg, ha figyelembe vesszük, hogy egy normális eloszlású mintából származó X mintaátlag szintén normális eloszlású, ugyanolyan μ várakozással, de σ/√n = 0,5 (gramm) standard hibával. A standardizálással egy véletlen változót kapunk

Z = X ¯ - μ σ / n = X ¯ - μ 0.5 {\displaystyle Z={\frac {{\bar {\X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {\X}}-\mu }{0.5}}}} {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}

a becslendő μ paramétertől függő, de a μ paramétertől független standard normális eloszlással. Ezért lehetséges olyan -z és z számokat találni, amelyek függetlenek μ-től, ahol Z a kettő között fekszik 1 - α valószínűséggel, ami egy mérték arra, hogy mennyire akarunk biztosak lenni. Mi 1 - α = 0,95-nek vesszük. Tehát van:

P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0,95.\,} {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95.\,}

A z szám a kumulatív eloszlásfüggvényből következik:

Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}} {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}

és megkapjuk:

0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X ¯ - μ σ / n ≤ 1,96 ) = P ( X ¯ - 1,96 σ n ≤ μ ≤ X ¯ + 1.96 σ n ) = P ( X ¯ - 1,96 × 0,5 ≤ μ ≤ X ¯ + 1,96 × 0,5 ) = P ( X ¯ - 0,98 ≤ μ ≤ X ¯ + 0,98 ) . {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}} {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}

Ezt úgy lehet értelmezni, hogy: 0,95 valószínűséggel találunk egy olyan konfidenciaintervallumot, amelyben a μ paramétert a sztochasztikus végpontok között találjuk.

X ¯ - 0 . 98 {\displaystyle {\bar {X}}-0{.}98\,} {\displaystyle {\bar {X}}-0{.}98\,}

és

X ¯ + 0.98. {\displaystyle {\bar {X}}+0.98.\,} {\displaystyle {\bar {X}}+0.98.\,}

Ez nem jelenti azt, hogy a számított intervallumban 0,95 valószínűséggel találkozunk a μ paraméterrel. Minden egyes mérés megismétlésével a minta X átlagának más értéke lesz. Az esetek 95%-ában μ az ebből az átlagból számított végpontok között lesz, de az esetek 5%-ában nem. A tényleges konfidenciaintervallumot a mért súlyok képletbe való beírásával számítjuk ki. A mi 0,95-ös konfidenciaintervallumunk a következő lesz:

( x ¯ - 0,98 ; x ¯ + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,} {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}

Mivel a μ kívánt 250-es értéke a kapott konfidenciaintervallumon belül van, nincs okunk feltételezni, hogy a gépet rosszul kalibrálták.

A kiszámított intervallumnak rögzített végpontjai vannak, amelyek között μ lehet (vagy nem). Így ennek az eseménynek a valószínűsége vagy 0, vagy 1. Nem mondhatjuk: "az μ paraméter (1 - α) valószínűséggel a konfidenciaintervallumban van". Csak azt tudjuk, hogy ismétléssel az esetek 100(1 - α) %-ában μ a számított intervallumban lesz. Az esetek 100α %-ában azonban nem. És sajnos azt sem tudjuk, hogy az esetek közül melyikben történik ez. Ezért mondjuk azt: "100(1 - α) % megbízhatósági szint mellett μ a megbízhatósági intervallumban van. "

A jobb oldali ábra egy adott μ populációs átlagra vonatkozó konfidenciaintervallum 50 megvalósítását mutatja. Ha véletlenszerűen választunk egy megvalósítást, 95%-os valószínűséggel olyan intervallumot választunk, amely tartalmazza a paramétert; azonban lehet, hogy nem vagyunk szerencsések, és rosszat választottunk. Soha nem fogjuk megtudni; megrekedünk az intervallumunkkal.

A függőleges vonalszakaszok a μ bizalmi intervallum 50 megvalósítását jelölik.Zoom
A függőleges vonalszakaszok a μ bizalmi intervallum 50 megvalósítását jelölik.

Kérdések és válaszok

K: Mi az a bizalmi intervallum a statisztikában?


V: A konfidenciaintervallum egy speciális intervallum, amelyet egy paraméter, például a populáció átlagának becslésére használnak, és amely egyetlen érték helyett a paraméter elfogadható értékeinek tartományát adja meg.

K: Miért használnak konfidenciaintervallumot egyetlen érték helyett?


V: A konfidenciaintervallumot egyetlen érték helyett azért használják, hogy figyelembe vegyék a paraméter mintán alapuló becslésének bizonytalanságát, és megadják annak valószínűségét, hogy a paraméter valós értéke az intervallumon belül van.

K: Mi az a megbízhatósági szint?


V: A megbízhatósági szint annak a valószínűsége, hogy a becsült paraméter a megbízhatósági intervallumon belül van, és gyakran százalékos formában adják meg (pl. 95%-os megbízhatósági intervallum).

K: Mik a konfidenciahatárok?


V: A konfidenciahatárok a konfidenciaintervallum végpontjai, amelyek a becsült paraméter elfogadható értéktartományát határozzák meg.

K: Hogyan befolyásolja a megbízhatósági szint a megbízhatósági intervallumot?


V: Egy adott becslési eljárásban minél magasabb a konfidenciaszint, annál szélesebb lesz a konfidenciaintervallum.

K: Milyen feltételezések szükségesek a konfidenciaintervallum kiszámításához?


V: A konfidenciaintervallum kiszámításához általában a becslési eljárás természetére vonatkozó feltételezésekre van szükség, például arra a feltételezésre, hogy a populáció eloszlása, amelyből a minta származik, normális.

K: A konfidenciaintervallumok robusztus statisztikák?


V: A konfidenciaintervallumok, amint azt alább tárgyaljuk, nem robusztus statisztikák, bár a robusztusság növelése érdekében kiigazításokat lehet végezni.

AlegsaOnline.com - 2020 / 2023 - License CC3