Fejl. Selve ordet genlyder med beklagelse og anger, i det mindste hvis du tilfældigvis er en baseballspiller, en eksamensdeltager eller en quiz-show-deltager. For statistikere er fejl simpelthen en ting at holde styr på som en del af jobbeskrivelsen - medmindre der naturligvis er tale om statistikens egne fejl.
Begrebetfejlmargener almindeligt i hverdagssproget, herunder mange medieartikler om videnskabelige emner eller meningsmålinger. Det er en måde at rapportere pålideligheden af en værdi (såsom procentdelen af voksne, der favoriserer en bestemt politisk kandidat). Det er baseret på en række faktorer, herunder størrelsen af den udtagne prøve og den formodede værdi af populationsgennemsnittet af variablen af interesse.
For at forstå fejlmarginen skal du først have arbejdskendskab til grundlæggende statistikker, især begrebet en normalfordeling. Når du læser, skal du være særlig opmærksom på forskellen mellem gennemsnittet af en prøve og gennemsnittet af et stort antal af disse prøveværdier.
Befolkningsstatistik: Grundlæggende
Hvis du har en stikprøve af data, som vægten af 500 tilfældigt udvalgte 15-årige drenge i Sverige, kan du beregne middelværdien eller gennemsnittet ved at dividere summen af de individuelle vægte med antallet af datapunkter (500). Standardafvigelsen for denne prøve er et mål for spredningen af disse data om det gennemsnit, der viser, hvor vidt værdier (såsom vægte) har tendens til at samle sig.
- Hvad har sandsynligvis en større standardafvigelse: Gennemsnitsvægten i pund for de ovennævnte svenske drenge eller de samlede skoleår, de har gennemført i en alder af 15 år?
DetCentral Limit Theoremstatistik angiver, at i enhver stikprøve taget fra en population med en værdi for en given variabel, der normalt fordeles omkring et gennemsnit, så er gennemsnittetaf midlerne af prøvertaget fra denne befolkning vil nærme sig befolkningens gennemsnit, da antallet af stikprøver middelværdier vokser mod uendelig.
I stikprøvestatistikker er middel- og standardafvigelsen repræsenteret af x̄ og s, som er ægte statistik snarere endμog σ, som faktisk erparametreog kan ikke kendes med 100 procent sikkerhed. Følgende eksempel illustrerer forskellen, der kommer i spil ved beregning af fejlmargener.
Hvis du gentagne gange samplede højderne på 100 tilfældigt udvalgte kvinder i et stort land, hvor gennemsnitshøjden for en voksen kvinde er 64,25 inches, med en standardafvigelse på 2 tommer, kan du muligvis samle på hinanden følgende x̄-værdier på 63,7, 64,9, 64,5 og så videre med standardafvigelser s på 1,7, 2,3, 2,2 tommer og synes godt om. I hvert tilfælde,μ ogσ forbliver uændret på henholdsvis 64,25 og 2 tommer.
\ text {Population mean} = \ mu \ newline \ text {Population standard deviation} = \ sigma \ newline \ text {Population variance} = \ sigma ^ 2 \ newline \ text {Sample mean} = \ bar {x} \ newline \ text {Sample standard deviation} = s \ newline \ text {Sample variance} = s ^ 2
Hvad er et tillidsinterval?
Hvis du valgte en enkelt person tilfældigt og gav hende en 20-spørgsmål generel videnskabelig quiz, ville det være dumt at bruge resultatet som gennemsnittet for enhver større population af testpersoner. Men hvis befolkningens gennemsnitlige score for denne quiz tilfældigvis er kendt, kan statistikkens styrke bruges til at bestemme den tillid, du kan have, at en række værdier (i dette tilfælde scorer) vil indeholde den enkelte persons score.
ENkonfidensintervaler et interval af værdier, der svarer til den forventede procentdel af sådanne intervaller, der indeholder værdien hvis et stort antal af sådanne intervaller oprettes tilfældigt ved hjælp af de samme stikprøvestørrelser fra de samme større befolkning. Der er altidnogleusikkert om, hvorvidt et bestemt konfidensinterval mindre end 100 procent faktisk indeholder den sande værdi af parameteren; oftest anvendes et konfidensinterval på 95 procent.
Eksempel: Antag, at din quiz-taker scorede 22/25 (88 procent), og at befolkningens gennemsnitsscore er 53 procent med en standardafvigelse på ± 10 procent. Er der en måde at vide, at denne score vedrører middelværdien i percentil termer, og hvad den involverede fejlmargin er?
Hvad er kritiske værdier?
Kritiske værdier er baseret på normalt distribuerede data, hvilket er den slags, der hidtil er blevet diskuteret her. Dette er data, der er symmetrisk fordelt om et centralt gennemsnit, som f.eks. Højde og vægt. Andre populationsvariabler, såsom alder, viser ikke normale fordelinger.
Kritiske værdier bruges til at bestemme konfidensintervaller. Disse er baseret på princippet om, at populationsmidler faktisk er meget, meget pålidelige skøn, der er brolagt sammen fra et praktisk taget ubegrænset antal prøver. De er betegnet medz, og du har brug for et diagram som det i ressourcerne for at arbejde med dem, fordi dit valgte konfidensinterval bestemmer deres værdi.
En grund til at du har brug forz-værdier (ellerz-scores) er at bestemme fejlmarginen for et stikprøvegennemsnit eller et populationsgennemsnit. Disse beregninger håndteres på noget forskellige måder.
Standardfejl vs. Standardafvigelse
Standardafvigelsen for en prøve er forskellig for hver prøve; standardfejlen for gennemsnittet af et antal prøver afhænger af populationsstandardafvigelsen σ og er givet ved udtrykket:
\ text {Standardfejl} = \ dfrac {\ sigma} {\ sqrt {n}} \ newline
Formel for fejlmargin
For at fortsætte ovenstående diskussion om z-scores stammer de fra det valgte konfidensinterval. For at bruge den tilknyttede tabel skal du konvertere konfidensintervalprocenten til en decimal, trække denne mængde fra 1,0, og divider resultatet med to (fordi konfidensintervallet er symmetrisk omkring betyde).
Mængden (1 - CI), hvor CI er konfidensintervallet udtrykt i decimalnotation, kaldesniveau af betydningog betegnes med α. For eksempel når CI = 95% = 0,95,α = 1.0 − 0.05 = 0.05.
Når du har denne værdi, finder du, hvor der vises på z-score-tabellen og bestemmerz-score ved at bemærke værdierne for den relevante række og kolonne. For eksempel nårα= 0,05, du henviser til værdien 0,05 / 2 = 0,025 på bordet, kaldetZ(α/2), se at det er forbundet med enz-score på -1,9 (rækkeværdien) minus yderligere 0,06 (kolonneværdien) for at give enz-score af -1,96.
Margen for fejlberegninger
Nu er du klar til at udføre nogle fejlmargenberegninger. Som nævnt udføres disse forskelligt afhængigt af, hvad du præcist finder fejlmarginen for.
Formlen for fejlmargenen for et gennemsnit af en prøve er:
E = Z _ {(α / 2)} × s
og at for populationsfejlmargenen for en befolkning er:
E = Z _ {(α / 2)} × \ frac {σ} {\ sqrt {n}} = Z _ {(α / 2)} × \ text {standardfejl}
Eksempel: Antag, at du ved, at antallet af online viser folk i dit by-binge-watch pr. År normalt er fordelt med en befolkningsstandardafvigelse σ på 3,2 viser. Der blev taget en tilfældig stikprøve på 29 byfolk, og gennemsnittet af prøven er 14,6 shows / år. Hvad er fejlmarginen ved hjælp af et konfidensinterval på 90%?
Du ser, at du vil bruge den anden af ovenstående to ligninger til at løse dette problem, da σ er givet. Beregn først standardfejlen σ / √n:
\ frac {3.6} {\ sqrt {29}} = 0,67
Nu bruger du værdien afZ(α/2) tilα= 0.10. Når du finder værdien 0,050 på bordet, ser du, at dette svarer til en værdi påzmellem -1,64 og -1,65, så du kan bruge -1,645. For fejlmargenenE, dette giver:
E = (-1,645) (0,67) = -1,10
Bemærk, at du kunne have startet med det positivez-scoresiden af tabellen og fundet værdien svarende til 0,90 i stedet for 0,10, da dette repræsenterer det tilsvarende kritiske punkt på den modsatte (højre) side af grafen. Dette ville have givetE= 1,10, hvilket giver mening, da fejlen er den samme på hver side af middelværdien.
Sammenfattende er antallet af shows binget pr. År af prøven på 29 af dine naboer derefter 14,6 ± 1,10 shows pr. År.