Comment calculer le coefficient de détermination

La corrélation n'est pas nécessairement égale à la causalité, mais trouver une corrélation entre deux variables dans une expérience est toujours un indice très important quant à la relation entre elles. C'est pourquoi les tests de corrélation sont l'un des types de tests statistiques les plus couramment utilisés en science, le plus connu étant le coefficient de corrélation de Pearson.

Cependant, le coefficient de détermination est sans doute plus important car il vous indique la proportion de la variation d'une variable qui peut être prédite en fonction de l'autre. C'est pourquoi apprendre à effectuer le calcul du coefficient de détermination est important pour quiconque travaille avec des statistiques basées sur la corrélation.

Quel est le coefficient de détermination?

Une définition de base du coefficient de détermination est que c'est le carré du coefficient de corrélation de Pearson, r, et donc il est souvent appelé R2.

Coefficient de Pearson mesure les corrélations, où une augmentation d'une variable accompagne soit une augmentation d'une autre (une corrélation positive) soit une diminution de celle-ci (une corrélation négative). La valeur pour

instagram story viewer
r peut être n'importe quoi entre -1 et +1, la magnitude du nombre vous indiquant la force de la corrélation et le signe vous indiquant s'il s'agit d'une corrélation positive ou négative.

R2 est le carré de cette mesure, il varie donc entre 0 et 1, et il vous indique le pourcentage de variation d'une variable qui peut être prédit par la variable corrélée. Ceci est utile pour de nombreuses choses, en particulier pour la construction de modèles mathématiques à des fins prédictives.

Calcul du coefficient de détermination

Le processus de calcul du coefficient de détermination est donc fondamentalement le même que le processus de calcul du coefficient de corrélation de Pearson, sauf qu'à la fin vous mettez le résultat au carré. La formule du coefficient de corrélation de Pearson est :

r=\frac{n\sum xy -\sum x \sum y }{\sqrt{(n\sum x^2 -(\sum x)^2)-(n\sum y^2 -(\sum y )^2)}}

Il y a quelques informations clés dont vous avez besoin pour travailler à travers cette formule (certes effrayante !): votre X et oui valeurs pour chaque observation (c'est-à-dire vos deux variables), la somme de vos X et oui valeurs, la somme de chaque X variable multipliée par le correspondant oui variable, et les sommes de chaque X et oui variable au carré.

Un moyen pratique de résoudre ce problème est d'utiliser un tableur programme comme Microsoft Excel, avec des colonnes pour X, oui, xy, X2 et oui2 et les sommes en bas pour chaque colonne. Vous aurez également besoin d'une valeur pour m, la taille de votre échantillon (dont chacun a un X et un oui valeur).

Exécutez le processus indiqué par la formule. Première prise m multiplié par la somme de vos xy valeurs, puis soustraire la somme de X valeurs multipliées par la somme de oui valeurs.

Divisez tout ce résultat par la section du bas: m fois la somme des carrés de votre X valeurs, moins la somme des X valeurs au carré, toutes multipliées par le résultat de la même chose pour votre oui valeurs, en prenant finalement la racine carrée avant d'effectuer la division. Cela vous donne r, que vous mettez simplement au carré pour obtenir R2.

Interprétation du coefficient de détermination

Le coefficient de détermination est un nombre compris entre 0 et 1, qui peut être converti en pourcentage en multipliant par 100. Le coefficient standard d'interprétation de la détermination est la quantité de variation de y qui peut être expliquée par X, en d'autres termes, dans quelle mesure les données correspondent au modèle de régression que vous utilisez, décrivez-les.

Cependant, il est important de noter les mises en garde habituelles présentes dans les données basées sur les corrélations. Il est tout à fait possible que deux variables soient corrélées sans être causalement liées.

Par exemple, prenez la relation entre l'utilisation d'appareils auditifs et le nombre de rides sur votre peau. Il existe une forte corrélation entre les deux, mais bien sûr, les deux sont vraiment causés par la vieillesse. Il ne s'agit pas tant d'un défaut de l'approche que d'une limitation à prendre en compte pour interpréter correctement les résultats.

Teachs.ru
  • Partager
instagram viewer