Supponiamo che tu sappia che l'altezza media di una donna americana è vicina a 5 piedi e 4 pollici (circa 1,63 m). Diciamo che ti è stato anche detto che un auditorium in cui sono in piedi 500 donne adulte è un campione perfettamente rappresentativo della popolazione americana. Cioè, puoi ragionevolmente aspettarti che anche l'altezza media delle donne nell'auditorium sarà di 5' 4".
Se dovessi scegliere tre persone a caso per uscire dalla stanza, ti aspetteresti che la media, o media, delle loro altezze sia esattamente 5' 4"? Perché o perché no? E se invece scegliessi 10 persone? O 100? Inoltre, supponiamo che tu abbia ripetuto l'esperimento di misurare le altezze di tre donne scelte a caso nella stanza più e più volte, e poi hai fatto la media questi medie?
Nel tempo, potresti aspettarti la media di queste medie, ognuna delle quali è chiamata x-bar (x̄) o il campione medio, per avvicinarsi alla media della popolazione di 5' 4". E se usassi campioni più grandi, ti aspetteresti che questa convergenza dei mezzi di campionamento e dei mezzi veri (popolazione) avvenga più rapidamente. Ma perché?
Statistiche della popolazione
Le risposte alle domande di cui sopra si trovano nel regno statistico di distribuzioni campionarie. Ma prima, un po' di terminologia e definizioni sono in ordine.
La media della popolazione è un valore accettato, determinato empiricamente, che si applica al più grande gruppo possibile di individui che stai studiando. Quindi, se il tuo auditorium contiene 500 donne americane, l'intero insieme di donne americane è la più grande popolazione implicata.
p rappresenta un concetto simile: una popolazione conosciuta proporzione, come ad esempio "la proporzione di cani in tutto il mondo che possono correre oltre 15 miglia all'ora è 0,40 (40 percento)." p̂, chiamato "p-hat", è la proporzione media trovata dopo aver prelevato un numero di campioni della stessa taglia (ad esempio, 10 cani) dalla popolazione in generale.
Ad esempio, un gruppo di 10 cani selezionati casualmente potrebbe avere una velocità media di 17,8 MPH, i successivi 14,3 MPH, i successivi 12,8 MPH e così via finché non avrai analizzato tutti i campioni che desideri.
Statistiche di campionamento
Le distribuzioni di campionamento consentono di determinare se il pool da cui si prelevano campioni è veramente rappresentativo della popolazione più ampia. Questo perché, secondo il Teorema del limite centrale, come il numero di x-bar (x̄) aumenta, un grafico della loro media e della loro distribuzione assomiglierà a quello della media reale della popolazione. Cioè, sarà una distribuzione normale (a campana).
Torniamo alle donne nell'auditorium: nel tempo, potresti aspettarti la media di queste medie, chiamata x-bar (x̄) o la media campionaria, per avvicinarsi alla media della popolazione di 5' 4" indipendentemente da quanti punti dati (n) includi in ogni x-bar. E se usi campioni più grandi, come 100 persone o cani alla volta invece di 10, ti aspetteresti entrambi che ciascuno l'individuo x̄ sarà più vicino alla media vera e che sarà necessario fare la media di meno istanze di x̄ per avvicinarsi a questo vero mezzo.
Ad esempio, se scegli tre donne, non saresti sorpreso se la loro altezza media fosse 5' 9" o 5' 1" perché un singolo "valore anomalo" molto alto o molto corto può eliminare molto una media quando il numero di punti dati è piccolo.
Ma se eseguissi prove ripetute di 100 donne e vedessi valori x-bar di 5' 8.2", 5' 7.3", e così via, avresti motivo di concludere che il campione di 500 persone nell'auditorium non era, in effetti, un campione scelto a caso di donne americane.
Calcolatrice X-Bar
Puoi trovare rapidamente il valore di x-bar per qualsiasi campione facendo riferimento a una pagina come quella nelle Risorse. Per sommare questi valori per ottenere una distribuzione campionaria, puoi utilizzare programmi per fogli di calcolo come Microsoft Excel o Fogli Google che dispongono di vari strumenti statistici preconfezionati per usi come questi.