Chyba. Samotné slovo rezonuje lítostí a lítostí, přinejmenším pokud jste náhodou hráčem baseballu, účastníkem zkoušky nebo účastníkem kvízu. Pro statistiky jsou chyby jednoduše další věcí, kterou je třeba sledovat v rámci popisu práce - pokud ovšem nejde o vlastní chyby statistika.
Termínhranice chybyje běžný v běžném jazyce, včetně mnoha mediálních článků o vědeckých tématech nebo průzkumů veřejného mínění. Jedná se o způsob, jak ohlásit spolehlivost hodnoty (například procenta dospělých, kteří upřednostňují konkrétního politického kandidáta). Je založen na řadě faktorů, včetně velikosti odebraného vzorku a předpokládané hodnoty populačního průměru sledované proměnné.
Abyste pochopili míru chyby, musíte nejprve mít základní znalosti základních statistik, zejména konceptu normálního rozdělení. Při čtení věnujte zvláštní pozornost rozdílu mezi průměrem vzorku a průměrem velkého počtu těchto průměrů vzorku.
Statistika populace: Základy
Pokud máte vzorek údajů, jako je váha 500 náhodně vybraných 15letých chlapců ve Švédsku, můžete vypočítat průměr nebo průměr vydělením součtu jednotlivých vah počtem datových bodů (500). Směrodatná odchylka tohoto vzorku je měřítkem šíření těchto údajů o tomto průměru, což ukazuje, jak široce se hodnoty (například váhy) shlukují.
- Co s největší pravděpodobností má větší směrodatnou odchylku: Průměrná hmotnost výše zmíněných švédských chlapců v librách nebo celkový počet školních let, které absolvovali ve věku 15 let?
TheTeorém centrálního limitustatistik uvádí, že v jakémkoli vzorku odebraném z populace s hodnotou pro danou proměnnou, která je normálně rozdělena na průměr, pak průměrprostředků vzorkůz této populace se přiblíží populačnímu průměru, protože počet průměrných vzorků roste směrem k nekonečnu.
Ve vzorových statistikách jsou průměr a směrodatná odchylka reprezentovány x̄ a s, což jsou spíše skutečné statistiky nežμa σ, které jsou ve skutečnostiparametrya nelze je znát se stoprocentní jistotou. Následující příklad ilustruje rozdíl, který se projeví při výpočtu okrajů chyby.
Pokud jste opakovaně vzorkovali výšky 100 náhodně vybraných žen ve velké zemi, kde je průměrná výška dospělé ženy 64,25 palce, s směrodatná odchylka 2 palce, můžete sbírat postupné hodnoty x̄ 63,7, 64,9, 64,5 atd., se směrodatnými odchylkami s 1,7, 2,3, 2,2 palce a jako. V každém případě,μ aσ zůstávají nezměněny na 64,25 respektive 2 palce.
\ text {průměr populace} = \ mu \ newline \ text {standardní odchylka populace} = \ sigma \ newline \ text {odchylka populace} = \ sigma ^ 2 \ newline \ text {Sample mean} = \ bar {x} \ newline \ text {Sample standard deviation} = s \ newline \ text {Sample variance} = s ^ 2
Co je interval spolehlivosti?
Pokud jste náhodně vybrali jednu osobu a poskytli jí obecný vědecký kvíz o 20 otázkách, bylo by pošetilé použít výsledek jako průměr pro jakoukoli větší populaci účastníků testu. Pokud je však průměrné populační průměrné skóre pro tento kvíz známo, lze sílu statistik využít určete důvěru, kterou můžete mít, že rozsah hodnot (v tomto případě skóre) bude obsahovat hodnoty této jedné osoby skóre.
Ainterval spolehlivostije rozsah hodnot, který odpovídá očekávanému procentu takových intervalů, které budou hodnotu obsahovat pokud je náhodně vytvořen velký počet takových intervalů, za použití stejných velikostí vzorků od stejných větších populace. Tam je vždynějakýnejistě ohledně toho, zda konkrétní interval spolehlivosti menší než 100 procent skutečně obsahuje skutečnou hodnotu parametru; většinu času se používá 95% interval spolehlivosti.
Příklad: Předpokládejme, že váš účastník testu získal skóre 22/25 (88 procent) a že průměrné skóre populace je 53 procent se standardní odchylkou ± 10 procent. Existuje způsob, jak zjistit, že toto skóre souvisí s průměrem v percentilovém vyjádření a jaká je míra chyby?
Jaké jsou kritické hodnoty?
Kritické hodnoty jsou založeny na normálně distribuovaných datech, což je druh, o kterém se zde dosud diskutovalo. Jedná se o data, která jsou symetricky distribuována kolem středního průměru, jako je výška a hmotnost. Jiné populační proměnné, například věk, nevykazují normální rozdělení.
Kritické hodnoty se používají k určení intervalů spolehlivosti. Ty jsou založeny na principu, že populační prostředky jsou ve skutečnosti velmi, velmi spolehlivé odhady dlážděné dohromady z prakticky neomezeného počtu vzorků. Jsou označenyza pro práci s nimi potřebujete graf, jako je ten ve zdrojích, protože vámi vybraný interval spolehlivosti určuje jejich hodnotu.
Jeden důvod, který potřebujetez-hodnoty (neboz-scores) je určit míru chyby střední hodnoty vzorku nebo střední hodnoty populace. Tyto výpočty jsou zpracovány poněkud odlišnými způsoby.
Standardní chyba vs. Standardní odchylka
Směrodatná odchylka vzorku s se u každého vzorku liší; standardní chyba střední hodnoty počtu vzorků závisí na směrodatné odchylce populace σ a je dána výrazem:
\ text {standardní chyba} = \ dfrac {\ sigma} {\ sqrt {n}} \ nový řádek
Vzorec chyby
Chcete-li pokračovat ve výše uvedené diskusi o z-skóre, jsou odvozena od zvoleného intervalu spolehlivosti. Chcete-li použít přidruženou tabulku, převeďte procento intervalu spolehlivosti na desetinné místo, odečtěte toto množství od 1,0 a vydělte výsledek dvěma (protože interval spolehlivosti je kolem znamenat).
Množství (1 - CI), kde CI je interval spolehlivosti vyjádřený v desítkové soustavě, se nazýváúroveň významnostia je označen α. Například když CI = 95% = 0,95,α = 1.0 − 0.05 = 0.05.
Jakmile máte tuto hodnotu, zjistíte, kde se v tabulce z-skóre objeví, a určetez-skóre zaznamenáním hodnot pro příslušný řádek a sloupec. Například kdyžα= 0,05, odkazujete na hodnotu 0,05 / 2 = 0,025 na stole, tzvZ(α/2), podívejte se, že je spojen s az-skóre -1,9 (hodnota řádku) minus dalších 0,06 (hodnota sloupce), čímž se získá az-skóre -1,96.
Výpočet chyby
Nyní jste připraveni provést určité výpočty rozpětí chyb. Jak již bylo uvedeno, provádí se to různě v závislosti na tom, v čem přesně nacházíte hranici chyby.
Vzorec pro míru chyby pro průměrnou hodnotu vzorku je:
E = Z _ {(α / 2)} × s
a to pro hranici chyby populačního průměru je:
E = Z _ {(α / 2)} × \ frac {σ} {\ sqrt {n}} = Z _ {(α / 2)} × \ text {standardní chyba}
Příklad: Předpokládejme, že víte, že počet online pořadů, které lidé ve vašem městě sledují za rok, je obvykle distribuován se standardní odchylkou populace σ 3,2 pořadů. Byl odebrán náhodný vzorek 29 měšťanů a průměr vzorku je 14,6 představení / rok. Při použití 90% intervalu spolehlivosti, jaké je rozpětí chyby?
Uvidíte, že k řešení tohoto problému použijete druhou z výše uvedených dvou rovnic, protože je dáno σ. Nejprve spočítejte standardní chybu σ / √n:
\ frac {3.6} {\ sqrt {29}} = 0,67
Nyní použijete hodnotuZ(α/2) proα= 0.10. Když na stole najdete hodnotu 0,050, uvidíte, že to odpovídá hodnotězmezi −1,64 a −1,65, takže můžete použít −1,645. Pro odchylku chybyE, to dává:
E = (-1,645) (0,67) = -1,10
Všimněte si, že jste mohli začít pozitivněz-score straně tabulky a našel hodnotu odpovídající 0,90 místo 0,10, protože to představuje odpovídající kritický bod na opačné (pravé) straně grafu. To by daloE= 1,10, což dává smysl, protože chyba je na každé straně střední hodnoty stejná.
Stručně řečeno, počet pořadů, které byly vybrány za rok vzorkem 29 vašich sousedů, je 14,6 ± 1,10 pořadů za rok.