Pogreška. Sama riječ odjekuje žaljenjem i kajanjem, barem ako ste slučajno igrač bejzbola, polagač ispita ili sudionik kviza. Za statističare su pogreške samo još jedna stvar koju treba pratiti kao dio opisa posla - osim ako se, naravno, radi o vlastitim pogreškama statističara.
Uvjetmargina pogreškeUobičajena je u svakodnevnom jeziku, uključujući puno medijskih članaka o znanstvenim temama ili anketama. To je način da se izvijesti o pouzdanosti vrijednosti (kao što je postotak odraslih koji favoriziraju određenog političkog kandidata). Temelji se na brojnim čimbenicima, uključujući veličinu uzetog uzorka i pretpostavljenu vrijednost prosjeka populacije varijable od interesa.
Da biste razumjeli granicu pogreške, prvo morate dobro poznavati osnovne statistike, a posebno koncept normalne raspodjele. Dok čitate, obratite posebnu pozornost na razliku između srednje vrijednosti uzorka i srednje vrijednosti velikog broja ovih uzoraka.
Statistika stanovništva: osnove
Ako imate uzorak podataka, poput težine 500 slučajno odabranih 15-godišnjaka u Švedskoj, možete izračunajte srednju vrijednost ili prosjek dijeljenjem zbroja pojedinačnih težina s brojem točaka podataka (500). Standardno odstupanje ovog uzorka mjera je širenja tih podataka o toj srednjoj vrijednosti, pokazujući koliko se vrijednosti (poput težina) teže grupirati.
- Što najvjerojatnije ima veću standardnu devijaciju: Prosječna težina u kilogramima gore spomenutih švedskih dječaka ili ukupna godina škole koju su završili s 15 godina?
TheSrednji granični teoremstatistike kaže da je u bilo kojem uzorku uzetom iz populacije s vrijednošću za danu varijablu koja se obično raspoređuje oko srednje vrijednosti tada prosjeksredstava uzorakauzeti iz te populacije približit će se srednjoj populaciji jer broj uzoraka znači da prosjeci rastu prema beskonačnosti.
U statistikama uzorka, srednja vrijednost i standardna devijacija predstavljaju x̄ i s, što su istinite statistike, a neμi σ, što su zapravoparametrii ne može se znati sa 100-postotnom sigurnošću. Sljedeći primjer ilustrira razliku koja dolazi do izražaja pri izračunavanju margina pogrešaka.
Ako ste više puta uzorkovali visine 100 nasumično odabranih žena u velikoj zemlji u kojoj je prosječna visina odrasle žene 64,25 inča, s standardno odstupanje od 2 inča, možete prikupiti uzastopne x̄ vrijednosti od 63,7, 64,9, 64,5 i tako dalje, sa standardnim odstupanjima s od 1,7, 2,3, 2,2 inča i Kao. U svakom slučaju,μ iσ ostaju nepromijenjeni na 64,25, odnosno 2 inča.
\ text {Sredina populacije} = \ mu \ newline \ text {Standardno odstupanje populacije} = \ sigma \ newline \ text {Varijacija populacije} = \ sigma ^ 2 \ newline \ text {Srednja vrijednost uzorka} = \ bar {x} \ newline \ text {Primjer standardne devijacije} = s \ newline \ text {Varijacija uzorka} = s ^ 2
Što je interval povjerenja?
Ako ste slučajno odabrali jednu osobu i dali joj opći znanstveni kviz s 20 pitanja, bilo bi glupo koristiti rezultat kao prosjek za bilo koju veću populaciju ispitanika. Međutim, ako je slučajno poznat prosječni rezultat populacije za ovaj kviz, tada se može iskoristiti snaga statistike odredite pouzdanje koje možete imati da će niz vrijednosti (u ovom slučaju bodovi) sadržavati vrijednost jedne osobe postići.
Ainterval pouzdanostije raspon vrijednosti koji odgovara očekivanom postotku takvih intervala koji će sadržavati vrijednost ako se slučajno stvori velik broj takvih intervala, koristeći iste veličine uzoraka iz istog većeg populacija. Uvijek postojinekinesigurno oko toga sadrži li određeni interval pouzdanosti manji od 100 posto stvarnu vrijednost parametra; većinu vremena koristi se interval pouzdanosti od 95 posto.
Primjer: Pretpostavimo da je vaš kviz postigao 22/25 (88 posto) i da je prosječni rezultat populacije 53 posto uz standardno odstupanje od ± 10 posto. Postoji li način da se zna da se ova ocjena odnosi na srednju vrijednost u percentilu i koja je granica pogreške?
Koje su kritične vrijednosti?
Kritične vrijednosti temelje se na normalno distribuiranim podacima, o čemu se ovdje do sada raspravljalo. To su podaci koji se simetrično raspoređuju oko središnje sredine, poput visine i težine. Ostale varijable populacije, poput dobi, ne pokazuju normalnu raspodjelu.
Kritične vrijednosti koriste se za određivanje intervala pouzdanosti. Oni se temelje na principu da su populacijska sredstva zapravo vrlo, vrlo pouzdane procjene popločane zajedno s praktički neograničenog broja uzoraka. Označeni su saz, a za rad s njima potreban vam je grafikon poput onog u Resursima, jer odabrani interval pouzdanosti određuje njihovu vrijednost.
Jedan razlog koji vam trebaz-vrijednosti (iliz-scores) je utvrđivanje granice pogreške srednje vrijednosti uzorka ili srednje vrijednosti populacije. Ti se izračuni obrađuju na nešto drugačiji način.
Standardna pogreška vs. Standardno odstupanje
Standardno odstupanje uzorka razlikuje se za svaki uzorak; standardna pogreška srednje vrijednosti broja uzoraka ovisi o standardnoj devijaciji populacije σ i daje se izrazom:
\ text {Standardna pogreška} = \ dfrac {\ sigma} {\ sqrt {n}} \ newline
Formula za marginu pogreške
Da bi nastavili gornju raspravu o z-rezultatima, oni su izvedeni iz odabranog intervala pouzdanosti. Da biste koristili povezanu tablicu, pretvorite postotak intervala pouzdanosti u decimalni, oduzmite ovo količina od 1,0, a rezultat podijelite s dva (jer je interval pouzdanosti simetričan oko znači).
Količina (1 - CI), gdje je CI interval pouzdanosti izražen u decimalnom zapisu, naziva serazina značajnostia označava se s α. Na primjer, kada je CI = 95% = 0,95,α = 1.0 − 0.05 = 0.05.
Nakon što dobijete ovu vrijednost, pronađite gdje se nalazi na z-score tablici i odreditez-rezultat bilježenjem vrijednosti za odgovarajući redak i stupac. Na primjer, kadaα= 0,05, pozivate se na vrijednost 0,05 / 2 = 0,025 na tablici, tzvZ(α/2), vidi da je povezan s az-rezultat od -1,9 (vrijednost retka) minus još 0,06 (vrijednost stupca) dajući az-rezultat od -1,96.
Izračun margine pogreške
Sada ste spremni izvršiti određenu granicu izračuna pogrešaka. Kao što je napomenuto, to se radi različito, ovisno o tome što točno nalazite na granici pogreške.
Formula za granicu pogreške za srednju vrijednost uzorka je:
E = Z _ {(α / 2)} × s
a to za marginu pogreške populacije znači:
E = Z _ {(α / 2)} × \ frac {σ} {\ sqrt {n}} = Z _ {(α / 2)} × \ text {standardna pogreška}
Primjer: Pretpostavimo da znate da se broj internetskih emisija ljudi u vašem gradskom binge-watchu godišnje distribuira sa standardnim odstupanjem populacije σ od 3,2 emisije. Uzet je slučajni uzorak od 29 stanovnika, a srednja vrijednost uzorka je 14,6 emisija godišnje. Koja je granica pogreške pomoću intervala pouzdanosti od 90%?
Vidite da ćete za rješavanje ovog problema koristiti drugu od gornje dvije jednadžbe, jer je dana σ. Prvo izračunajte standardnu pogrešku σ / √n:
\ frac {3.6} {\ sqrt {29}} = 0,67
Sada koristite vrijednostZ(α/2) zaα= 0.10. Locirajući vrijednost 0,050 na tablici, vidite da to odgovara vrijednosti odzizmeđu -1,64 i -1,65, tako da možete koristiti -1,645. Za granicu pogreškeE, ovo daje:
E = (-1,645) (0,67) = -1,10
Imajte na umu da ste mogli početi s pozitivnimz-rezultatna strana tablice i pronađena je vrijednost koja odgovara 0,90 umjesto 0,10, jer to predstavlja odgovarajuću kritičnu točku na suprotnoj (desnoj) strani grafikona. Ovo bi daloE= 1,10, što ima smisla jer je pogreška ista sa svake strane srednje vrijednosti.
Ukratko, dakle, broj emisija koje se godišnje podvezuju na uzorku od 29 vaših susjeda iznosi 14,6 ± 1,10 emisija godišnje.