Supposons que vous sachiez que la taille moyenne d'une femme américaine est proche de 5 pieds 4 pouces (environ 1,63 m). Supposons qu'on vous ait également dit qu'un auditorium dans lequel se tiennent 500 femmes adultes est un échantillon parfaitement représentatif de la population américaine. C'est-à-dire que vous pouvez raisonnablement vous attendre à ce que la taille moyenne des femmes dans l'auditorium soit également de 5 pi 4 po.
Si vous deviez choisir au hasard trois personnes pour sortir de la pièce, vous attendriez-vous à ce que la moyenne, ou la moyenne, de leurs hauteurs soit exactement de 5 pi 4 po? Pourquoi ou pourquoi pas? Et si vous choisissiez plutôt 10 personnes? Ou 100? En outre, supposons que vous ayez répété l'expérience consistant à mesurer la taille de trois femmes choisies au hasard dans la pièce encore et encore, puis que vous ayez fait la moyenne celles-ci moyennes ?
Au fil du temps, vous pouvez vous attendre à la moyenne de ces moyennes, chacune étant appelée barre x (x̄)
ou la moyenne de l'échantillon, pour approcher la moyenne de la population de 5' 4". Et si vous utilisiez des échantillons plus grands, vous vous attendriez à ce que cette convergence des moyennes d'échantillonnage et des vraies moyennes (population) se produise plus rapidement. Mais pourquoi?Statistiques démographiques
Les réponses aux questions ci-dessus se situent dans le domaine statistique de distributions d'échantillonnage. Mais d'abord, une terminologie et des définitions s'imposent.
La moyenne de la population est une valeur acceptée et déterminée empiriquement qui s'applique au plus grand groupe possible d'individus que vous étudiez. Ainsi, si votre auditorium contient 500 femmes américaines, l'ensemble des femmes américaines est la plus grande population impliquée.
p représente un concept similaire: une population connue proportion, comme "la proportion de chiens dans le monde qui peuvent courir à plus de 15 miles par heure est de 0,40 (40 pour cent)". p̂, appelé « p-hat », est la proportion moyenne trouvée après avoir prélevé un certain nombre d'échantillons de la même taille (par exemple, 10 chiens) de la population en général.
Par exemple, un groupe de 10 chiens sélectionnés au hasard peut avoir une vitesse moyenne de 17,8 MPH, le prochain 14,3 MPH, le prochain 12,8 MPH et ainsi de suite jusqu'à ce que vous ayez analysé autant d'échantillons que vous le souhaitez.
Statistiques d'échantillonnage
Les distributions d'échantillonnage vous permettent de déterminer si le pool dans lequel vous prélevez des échantillons est vraiment représentatif de la population plus large. C'est parce que, selon le Théorème central limite, comme le nombre de barre x (x̄) augmente, un graphique de leur moyenne et de leur distribution ressemblera à celui de la vraie moyenne de la population. C'est-à-dire que ce sera une distribution normale (en forme de cloche).
Revenons aux femmes dans l'auditorium: Au fil du temps, vous pourriez vous attendre à la moyenne de ces moyennes, appelée x-bar (x̄) ou la moyenne de l'échantillon, pour approcher la moyenne de la population de 5' 4" quel que soit le nombre de points de données (n) que vous incluez dans chaque barre x. Et si vous utilisez des échantillons plus importants, tels que 100 personnes ou chiens à la fois au lieu de 10, vous vous attendriez à ce que chacun l'individu x̄ sera plus proche de la vraie moyenne et que moins d'instances de x̄ doivent être moyennées pour se rapprocher de cette vrai moyen.
Par exemple, si vous choisissez trois femmes, vous ne seriez pas surpris si leur taille moyenne était de 5' 9" ou 5' 1" car une seule "valeur aberrante" très grande ou très courte peut perturber beaucoup une moyenne lorsque le nombre de points de données est petit.
Mais si vous meniez des essais répétés sur 100 femmes et que vous voyiez des valeurs de barre X de 5' 8,2", 5' 7,3", et ainsi de suite, vous auriez des raisons de conclure que l'échantillon de la population de 500 dans l'auditorium n'était pas, en fait, un échantillon choisi au hasard de femmes américaines.
Calculatrice X-Bar
Vous pouvez trouver rapidement la valeur de la barre x pour n'importe quel échantillon en vous référant à une page comme celle des ressources. Pour additionner ces valeurs afin d'obtenir une distribution d'échantillonnage, vous pouvez utiliser des tableurs tels que Microsoft Excel ou Google Sheets qui disposent de divers outils statistiques préconfigurés pour des utilisations comme celles-ci.