Les expériences testent les prédictions. Ces prédictions sont souvent numériques, ce qui signifie que, lorsque les scientifiques collectent des données, ils s'attendent à ce que les chiffres se décomposent d'une certaine manière. Les données du monde réel correspondent rarement exactement aux prédictions des scientifiques, les scientifiques ont donc besoin d'un test pour leur dire si la différence entre et les nombres attendus sont dus au hasard, ou à cause d'un facteur imprévu qui obligera le scientifique à ajuster la théorie sous-jacente. Un test du chi carré est un outil statistique que les scientifiques utilisent à cette fin.
Le type de données requises
Vous avez besoin de données catégorielles pour utiliser un test du chi carré. Un exemple de données catégorielles est le nombre de personnes qui ont répondu « oui » à une question par rapport au nombre de personnes qui ont répondu la question « non » (deux catégories), ou le nombre de grenouilles dans une population qui sont vertes, jaunes ou grises (trois catégories). Vous ne pouvez pas utiliser un test du Khi-deux sur des données continues, telles qu'elles pourraient être recueillies à partir d'un sondage demandant aux gens quelle est leur taille. À partir d'une telle enquête, vous obtiendriez un large éventail de hauteurs. Cependant, si vous divisez les hauteurs en catégories telles que "moins de 6 pieds de haut" et "6 pieds de haut et plus", vous pouvez alors utiliser un test du chi carré sur les données.
Le test d'adéquation
Un test d'adéquation est un test courant, et peut-être le plus simple, effectué à l'aide de la statistique du chi carré. Dans un test d'adéquation, la scientifique fait une prédiction spécifique sur les nombres qu'elle s'attend à voir dans chaque catégorie de ses données. Elle collecte ensuite des données du monde réel - appelées données observées - et utilise le test du chi carré pour voir si les données observées correspondent à ses attentes.
Par exemple, imaginez qu'un biologiste étudie les schémas héréditaires d'une espèce de grenouille. Parmi 100 descendants d'un ensemble de parents grenouilles, le modèle génétique de la biologiste l'amène à s'attendre à 25 descendants jaunes, 50 descendants verts et 25 descendants gris. Ce qu'elle observe en réalité, ce sont 20 progénitures jaunes, 52 progénitures vertes et 28 progénitures grises. Sa prédiction est-elle confirmée ou son modèle génétique est-il incorrect? Elle peut utiliser un test du chi carré pour le savoir.
Calcul de la statistique du Khi deux
Commencez à calculer la statistique du Khi deux en soustrayant chaque valeur attendue de sa valeur observée correspondante et en mettant au carré chaque résultat. Le calcul pour l'exemple de la progéniture de la grenouille ressemblerait à ceci :
jaune = (20 - 25)^2 = 25 vert = (52 - 50)^2 = 4 gris = (28 - 25)^2 = 9
Divisez maintenant chaque résultat par sa valeur attendue correspondante.
jaune = 25 ÷ 25 = 1 vert = 4 ÷ 50 = 0,08 gris = 9 ÷ 25 = 0,36
Enfin, additionnez les réponses de l'étape précédente.
khi carré = 1 + 0,08 + 0,36 = 1,44
Interprétation de la statistique du Khi deux
La statistique du chi carré vous indique à quel point vos valeurs observées étaient différentes de vos valeurs prédites. Plus le nombre est élevé, plus la différence est grande. Vous pouvez déterminer si votre valeur du khi-deux est trop élevée ou suffisamment basse pour soutenir votre prédiction en voyant si elle est inférieure à un certain valeur critique sur une table de distribution du chi carré. Ce tableau fait correspondre les valeurs du Khi deux avec des probabilités, appelées valeurs p. Plus précisément, le tableau vous indique la probabilité que les différences entre vos valeurs observées et attendues soient simplement dues au hasard ou à la présence d'un autre facteur. Pour un test d'adéquation, si la valeur p est de 0,05 ou moins, vous devez rejeter votre prédiction.
Vous devez déterminer le degrés de liberté (df) dans vos données avant de pouvoir rechercher la valeur critique du chi carré dans un tableau de distribution. Les degrés de liberté sont calculés en soustrayant 1 du nombre de catégories dans vos données. Il y a trois catégories dans cet exemple, il y a donc 2 degrés de liberté. Un coup d'oeil sur ce tableau de distribution du chi carré vous dit que, pour 2 degrés de liberté, la valeur critique pour une probabilité de 0,05 est de 5,99. Cela signifie que tant que votre valeur Khi-deux calculée est inférieure à 5,99, vos valeurs attendues, et donc la théorie sous-jacente, sont valides et prises en charge. Étant donné que la statistique du chi carré pour les données sur la progéniture de la grenouille était de 1,44, la biologiste peut accepter son modèle génétique.