Anta att du vet att en amerikansk kvinnas genomsnittliga höjd är nära 5 fot (4 tum) (cirka 1,63 m). Säg att du också fick höra att ett auditorium där 500 vuxna kvinnor står är ett perfekt representativt urval av den amerikanska befolkningen. Det vill säga, du kan ganska förvänta dig att kvinnornas genomsnittliga höjd i auditoriet också blir 5 '4 ".
Om du slumpmässigt skulle välja tre personer för att lämna rummet, skulle du förvänta dig att genomsnittet eller medelvärdet av deras höjder skulle vara exakt 5 '4 "? Varför eller varför inte? Vad händer om du väljer tio personer istället? Eller 100? Säg vidare att du upprepade experimentet med att mäta höjderna på tre slumpmässigt utvalda kvinnor i rummet om och om igen och sedan beräknade dessa genomsnitt?
Med tiden kan du förvänta dig genomsnittet av dessa medelvärden, som alla kallas x-bar (x̄) eller den provmedelvärde, för att närma sig populationsmedelvärdet 5 '4 ". Och om du använde större prover, skulle du förvänta dig att denna konvergens av provtagningsmedlet och den sanna (populationen) kommer att ske snabbare. Men varför?
Befolkningsstatistik
Svaren på ovanstående frågor ligger i det statistiska området provtagningsfördelningar. Men först är en del terminologi och definitioner i ordning.
Befolkningens medelvärde är ett accepterat, empiriskt bestämt värde som gäller den största möjliga grupp individer du studerar. Således om ditt auditorium innehåller 500 amerikanska kvinnor, är hela uppsättningen amerikanska kvinnor den större befolkningen som underförstås.
sid representerar ett liknande koncept: En känd befolkning andel, till exempel "andelen hundar över hela världen som kan springa över 15 mil i timmen är 0,40 (40 procent)." p̂, kallad "p-hat", är den genomsnittliga andelen som hittats efter att ha tagit ett antal prover av samma storlek (t.ex. 10 hundar) från den stora befolkningen.
Till exempel kan en grupp på 10 slumpmässigt utvalda hundar ha en genomsnittlig hastighet på 17,8 MPH, nästa 14,3 MPH, nästa 12,8 MPH och så vidare tills du har analyserat så många prover som du vill.
Provtagningsstatistik
Provdistributioner gör att du kan avgöra om poolen du tar prover från verkligen är representativ för den större befolkningen. Detta beror på, enligt Centrala gränsvärdessatsen, som antalet x-bar (x̄) stiger, en graf över deras genomsnitt och deras fördelning kommer att likna den för den verkliga befolkningens medelvärde. Det vill säga det kommer att vara en normal (klockformad) distribution.
Tillbaka till kvinnorna i auditoriet: Med tiden kan du förvänta dig genomsnittet av dessa medelvärden, kallat x-bar (x̄) eller provmedelvärdet, för att närma sig befolkningens medelvärde 5 '4 "oavsett hur många datapunkter (n) du inkluderar varje x-bar. Och om du använder större prover, som 100 personer eller hundar åt gången istället för 10, skulle du förvänta dig att båda var och en enskilda x̄ kommer närmare det verkliga medelvärdet och att färre förekomster av x̄ behöver medelvärderas för att komma närmare detta sant medelvärde.
Om du till exempel valde tre kvinnor skulle du inte bli förvånad om deras genomsnittliga längd var 5 '9 "eller 5' 1" eftersom en enstaka väldigt lång eller mycket kort "outlier" kan kasta bort ett genomsnitt mycket när antalet datapunkter är små.
Men om du körde upprepade försök med 100 kvinnor och såg x-bar-värden på 5 '8.2 ", 5' 7.3" och så vidare, skulle du ha anledning att drar slutsatsen att populationsprovet på 500 i salongen inte i själva verket var ett slumpmässigt valt urval av amerikanska kvinnor.
X-Bar-kalkylator
Du kan snabbt hitta värdet på x-bar för alla exempel genom att hänvisa till en sida som den i resurserna. För att summera dessa värden för att få en samplingsfördelning kan du använda kalkylprogram som Microsoft Excel eller Google Sheets som har olika förpackade statistiska verktyg för användning som dessa.