Fout. Het woord zelf resoneert met spijt en wroeging, tenminste als je een honkbalspeler, een examennemer of een deelnemer aan een quiz bent. Voor statistici zijn fouten gewoon nog een ding om bij te houden als onderdeel van de functiebeschrijving - tenzij natuurlijk de eigen fouten van de statisticus in het geding zijn.
De voorwaardefoutmargeis gebruikelijk in alledaagse taal, waaronder veel media-artikelen over wetenschappelijke onderwerpen of opiniepeilingen. Het is een manier om de betrouwbaarheid van een waarde te rapporteren (zoals het percentage volwassenen dat een voorkeur heeft voor een bepaalde politieke kandidaat). Het is gebaseerd op een aantal factoren, waaronder de grootte van de genomen steekproef en de veronderstelde waarde van het populatiegemiddelde van de variabele van belang.
Om de foutenmarge te begrijpen, moet u eerst praktische kennis hebben van basisstatistieken, in het bijzonder het concept van een normale verdeling. Let tijdens het lezen vooral op het verschil tussen het gemiddelde van een steekproef en het gemiddelde van een groot aantal van deze steekproefgemiddelden.
Bevolkingsstatistieken: de basis
Als u een steekproef van gegevens hebt, zoals de gewichten van 500 willekeurig gekozen 15-jarige jongens in Zweden, kunt u bereken het gemiddelde, of gemiddelde, door de som van de individuele gewichten te delen door het aantal gegevenspunten (500). De standaarddeviatie van deze steekproef is een maatstaf voor de spreiding van die gegevens over dat gemiddelde, en laat zien hoe breed waarden (zoals gewichten) de neiging hebben om te clusteren.
- Wat heeft hoogstwaarschijnlijk een grotere standaarddeviatie: het gemiddelde gewicht in kilo's van de bovengenoemde Zweedse jongens, of het totale aantal schooljaren dat ze op 15-jarige leeftijd hebben voltooid?
DeCentrale limietstellingvan statistieken stelt dat in elke steekproef uit een populatie met een waarde voor een bepaalde variabele die normaal verdeeld is over een gemiddelde, het gemiddeldevan de middelen van monstersgenomen uit die populatie zal het populatiegemiddelde benaderen als het aantal steekproefgemiddelden groeit naar oneindig.
In steekproefstatistieken worden het gemiddelde en de standaarddeviatie weergegeven door x̄ en s, wat echte statistieken zijn, in plaats vanμen, die eigenlijk. zijnparametersen kan niet met 100 procent zekerheid worden vastgesteld. Het volgende voorbeeld illustreert het verschil dat een rol speelt bij het berekenen van foutmarges.
Als je herhaaldelijk de lengtes van 100 willekeurig geselecteerde vrouwen hebt gemeten in een groot land waar de gemiddelde lengte van een volwassen vrouw 64,25 inch is, met een standaarddeviatie van 2 inch, kunt u opeenvolgende x̄-waarden van 63,7, 64,9, 64,5 enzovoort verzamelen, met standaarddeviaties s van 1,7, 2,3, 2,2 inch en de Leuk vinden. In ieder geval,enσ blijven ongewijzigd op respectievelijk 64,25 en 2 inch.
\text{Bevolkingsgemiddelde } = \mu \newline \text{Bevolkingsstandaarddeviatie }= \sigma \newline \text{Bevolkingsvariantie}= \sigma^2 \newline \text{Voorbeeldgemiddelde}= \bar{x} \newline \text{Voorbeeld standaarddeviatie }= s\nieuweregel \text{Voorbeeldvariantie }= s^2
Wat is een betrouwbaarheidsinterval?
Als je willekeurig één persoon zou kiezen en haar een algemene wetenschappelijke quiz van 20 vragen zou geven, zou het dwaas zijn om het resultaat te gebruiken als het gemiddelde voor een grotere populatie van testpersonen. Als de populatiegemiddelde score voor deze quiz echter bekend is, kan de kracht van statistieken worden gebruikt om: bepalen hoeveel vertrouwen u kunt hebben dat een reeks waarden (in dit geval scores) die van die ene persoon zal bevatten scoren.
EENBetrouwbaarheidsintervalis een bereik van waarden dat overeenkomt met het verwachte percentage van dergelijke intervallen dat de waarde zal bevatten als een groot aantal van dergelijke intervallen willekeurig wordt gemaakt, met dezelfde steekproefomvang van dezelfde grotere bevolking. Er is altijdsommigeonzeker over de vraag of een bepaald betrouwbaarheidsinterval van minder dan 100 procent daadwerkelijk de werkelijke waarde van de parameter bevat; meestal wordt een betrouwbaarheidsinterval van 95 procent gebruikt.
Voorbeeld: Stel dat uw quiz-nemer 22/25 (88 procent) heeft gescoord en dat de gemiddelde score van de populatie 53 procent is met een standaarddeviatie van ± 10 procent. Is er een manier om te weten of deze score betrekking heeft op het gemiddelde in percentieltermen en wat de foutmarge is?
Wat zijn kritische waarden?
Kritieke waarden zijn gebaseerd op normaal verdeelde gegevens, de soort die hier tot nu toe is besproken. Dit zijn gegevens die symmetrisch zijn verdeeld over een centraal gemiddelde, zoals lengte en gewicht. Andere populatievariabelen, zoals leeftijd, vertonen geen normale verdelingen.
Kritische waarden worden gebruikt om betrouwbaarheidsintervallen te bepalen. Deze zijn gebaseerd op het principe dat populatiegemiddelden in feite zeer, zeer betrouwbare schattingen zijn die zijn samengesteld uit een praktisch onbeperkt aantal steekproeven. Ze worden aangeduid metz, en u hebt een grafiek zoals die in de bronnen nodig om ermee te werken, omdat het door u gekozen betrouwbaarheidsinterval hun waarde bepaalt.
Een reden waarom je nodig hebt:z-waarden (ofz-scores) is om de foutenmarge van een steekproefgemiddelde of van een populatiegemiddelde te bepalen. Deze berekeningen worden op enigszins verschillende manieren afgehandeld.
Standaardfout vs. Standaardafwijking
De standaarddeviatie van een monster s verschilt per monster; de standaardfout van het gemiddelde van een aantal steekproeven hangt af van de populatiestandaarddeviatie σ en wordt gegeven door de uitdrukking:
\text{Standaardfout} = \dfrac{\sigma}{\sqrt{n}} \newline
Foutmargeformule
Om de bovenstaande discussie over z-scores voort te zetten, zijn ze afgeleid van het gekozen betrouwbaarheidsinterval. Om de bijbehorende tabel te gebruiken, converteert u het betrouwbaarheidsintervalpercentage naar een decimaal, trekt u dit af hoeveelheid van 1,0, en deel het resultaat door twee (omdat het betrouwbaarheidsinterval symmetrisch is rond de gemeen).
De hoeveelheid (1 CI), waarbij CI het betrouwbaarheidsinterval is, uitgedrukt in decimale notatie, wordt de. genoemdmate van belangen wordt aangegeven met α. Bijvoorbeeld, wanneer BI = 95% = 0,95,α = 1.0 − 0.05 = 0.05.
Zodra je deze waarde hebt, zoek je waar is verschijnt in de z-scoretabel en bepaal je dez-score door de waarden voor de relevante rij en kolom te noteren. Bijvoorbeeld, wanneer?α= 0,05, je verwijst naar de waarde 0,05/2 = 0,025 op de tafel, genaamdZ(α/2), zie dat het geassocieerd is met az-score van −1,9 (de rijwaarde) minus nog eens 0,06 (de kolomwaarde) om a. te gevenz-score van −1,96.
Foutmargeberekeningen
Nu bent u klaar om enkele foutmargeberekeningen uit te voeren. Zoals opgemerkt, worden deze anders gedaan, afhankelijk van wat u precies de foutmarge vindt.
De formule voor de foutmarge voor een steekproefgemiddelde is:
E = Z_{(α/2)} × s
en dat voor de foutenmarge van een populatiegemiddelde is:
E = Z_{(α/2)} × \frac{σ}{\sqrt{n}} = Z_{(α/2)} × \text{standaardfout}
Voorbeeld: Stel dat u weet dat het aantal online shows dat mensen in uw stad bingewatchen per jaar normaal verdeeld is met een populatiestandaarddeviatie σ van 3,2 shows. Er werd een willekeurige steekproef van 29 stedelingen genomen en het steekproefgemiddelde is 14,6 shows/jaar. Wat is de foutmarge bij gebruik van een betrouwbaarheidsinterval van 90%?
Je ziet dat je de tweede van de twee bovenstaande vergelijkingen zult gebruiken om dit probleem op te lossen, aangezien σ is gegeven. Bereken eerst de standaardfout σ/√nt:
\frac{3.6}{\sqrt{29}}= 0.67
Nu gebruik je de waarde vanZ(α/2) voorα= 0.10. Als je de waarde 0.050 op de tabel lokaliseert, zie je dat dit overeenkomt met een waarde vanztussen −1,64 en −1,65, dus u kunt −1,645 gebruiken. Voor de foutmargeE, dit geeft:
E = (-1,645) (0,67) = -1,10
Merk op dat je positief had kunnen beginnenz-score kant van de tabel en vond de waarde die overeenkomt met 0,90 in plaats van 0,10, aangezien dit het corresponderende kritieke punt aan de andere (rechter) kant van de grafiek vertegenwoordigt. Dit zou hebben gegevenE= 1,10, wat logisch is omdat de fout aan elke kant van het gemiddelde hetzelfde is.
Samengevat, het aantal shows dat per jaar wordt gebint door de steekproef van 29 van je buren is 14,6 ± 1,10 shows per jaar.