Załóżmy, że wiesz, że średni wzrost Amerykanki wynosi około 1,63 m (5 stóp i 4 cale). Powiedzmy, że powiedziano ci również, że audytorium, w którym stoi 500 dorosłych kobiet, jest doskonale reprezentatywną próbą populacji amerykańskiej. Oznacza to, że można się spodziewać, że średni wzrost kobiet w audytorium również wyniesie 5 stóp i 4 cale.
Gdybyś miał wybrać losowo trzy osoby, które wyjdą z pokoju, czy spodziewałbyś się, że ich średni wzrost będzie wynosił dokładnie 5 stóp i 4 cale? Dlaczego lub dlaczego nie? Co jeśli zamiast tego wybierzesz 10 osób? Lub 100? Co więcej, powiedzmy, że powtórzyłeś eksperyment polegający na pomiarze wzrostu trzech losowo wybranych kobiet w pokoju w kółko, a następnie uśredniłeś te średnie?
Z biegiem czasu możesz spodziewać się średniej z tych średnich, z których każda nazywa się x-bar (x̄) albo średnia próbki, aby zbliżyć się do średniej populacji wynoszącej 5' 4". A jeśli użyjesz większych próbek, spodziewałbyś się, że ta zbieżność średnich próbkowania i rzeczywistych (populacji) średnich nastąpi szybciej. Ale dlaczego?
Statystyki populacji
Odpowiedzi na powyższe pytania leżą w sferze statystycznej rozkłady próbkowania. Ale najpierw trochę terminologii i definicji jest w porządku.
Średnia populacji jest akceptowaną, empirycznie ustaloną wartością odnoszącą się do możliwie największej grupy badanych osób. Tak więc, jeśli wasze audytorium zawiera 500 Amerykanek, cały zestaw Amerykanek to większa populacja.
p reprezentuje podobną koncepcję: Znana populacja proporcja, na przykład „odsetek psów na całym świecie, które mogą biec z prędkością 15 mil na godzinę, wynosi 0,40 (40 procent)”. p, zwany „p-hat”, to średni odsetek znaleziony po pobraniu pewnej liczby próbek tej samej wielkości (np. 10 psów) z dużej populacji.
Na przykład jedna grupa 10 losowo wybranych psów może mieć średnią prędkość 17,8 mil na godzinę, następną 14,3 mil na godzinę, następną 12,8 mil na godzinę i tak dalej, dopóki nie przeanalizujesz tylu próbek, ile chcesz.
Statystyka próbkowania
Rozkłady próbkowania pozwalają określić, czy pula, z której pobierasz próbki, jest rzeczywiście reprezentatywna dla większej populacji. Dzieje się tak, ponieważ zgodnie z Centralne twierdzenie graniczne, jako liczba x-bar (x̄) wzrosty, wykres ich średniej i ich rozkład będzie przypominał rzeczywistą średnią populacji. Oznacza to, że będzie to rozkład normalny (w kształcie dzwonu).
Wracając do kobiet w audytorium: z biegiem czasu możesz spodziewać się średniej z tych średnich, zwanej x-bar (x̄) lub średnią z próby, aby zbliżyć się do średniej populacji 5' 4" bez względu na to, ile punktów danych (n) uwzględnisz w każdy x-bar. A jeśli użyjesz większych próbek, takich jak 100 osób lub psów na raz, zamiast 10, można oczekiwać, że każda z nich indywidualne x̄ będzie bliższe prawdziwej średniej i mniej wystąpień x̄ będzie musiało być uśrednionych, aby zbliżyć się do tej prawdziwa średnia.
Na przykład, jeśli wybierzesz trzy kobiety, nie zdziwisz się, jeśli ich średni wzrost wynosi 5' 9" lub 5' 1" ponieważ pojedynczy bardzo wysoki lub bardzo krótki „odstający” może bardzo zrzucić średnią, gdy liczba punktów danych jest mały.
Ale jeśli przeprowadzisz powtórne próby 100 kobiet i zobaczysz wartości x-bar 5'8,2", 5'7,3" i tak dalej, będziesz miał powód, aby wnioskują, że próba populacji licząca 500 osób w audytorium nie była w rzeczywistości losowo wybraną próbą amerykańskich kobiet.
Kalkulator X-Bar
Możesz szybko znaleźć wartość x-bar dla dowolnej próbki, odwołując się do strony takiej jak ta w Zasobie. Aby zsumować te wartości, aby uzyskać rozkład próbkowania, możesz użyć programów do arkuszy kalkulacyjnych, takich jak Microsoft Excel lub Arkusze Google, które mają różne gotowe narzędzia statystyczne do takich zastosowań.