Lorsque des scientifiques, des économistes ou des statisticiens font des prédictions basées sur la théorie et rassemblent ensuite des données réelles, ils ont besoin d'un moyen de mesurer la variation entre les valeurs prédites et mesurées. Ils reposent généralement sur l'erreur quadratique moyenne (MSE), qui est la somme des variations des points de données individuels au carré et divisée par le nombre de points de données moins 2. Lorsque les données sont affichées sur un graphique, vous déterminez la MSE en additionnant les variations des points de données de l'axe vertical. Sur un graphique x-y, ce seraient les valeurs y.
Pourquoi ajuster les variations ?
La multiplication de la variation entre les valeurs prédites et observées a deux effets souhaitables. La première est de s'assurer que toutes les valeurs sont positives. Si une ou plusieurs valeurs étaient négatives, la somme de toutes les valeurs pourrait être trop petite et représenter une mauvaise représentation de la variation réelle entre les valeurs prédites et observées. Le deuxième avantage de la mise au carré est de donner plus de poids aux différences plus importantes, ce qui garantit qu'une grande valeur pour MSE signifie de grandes variations de données.
Exemple d'algorithme de calcul de stock
Supposons que vous ayez un algorithme qui prédit quotidiennement les prix d'une action particulière. Lundi, il prédit que le cours de l'action sera de 5,50 $, mardi de 6,00 $, mercredi 6,00 $, jeudi 7,50 $ et vendredi 8,00 $. Considérant lundi comme le jour 1, vous avez un ensemble de points de données qui apparaît comme ceci: (1, 5,50), (2, 6,00), (3, 6,00), (4, 7,50) et (5, 8,00). Les prix réels sont les suivants: Lundi 4,75 $ (1, 4,75); mardi 5,35 $ (2, 5,35); mercredi 6,25 $ (3, 6,25); jeudi 7,25 $ (4, 7,25); et vendredi: 8,50 $ (5, 8,50).
Les variations entre les valeurs y de ces points sont respectivement de 0,75, 0,65, -0,25, 0,25 et -0,50, le signe négatif indiquant une valeur prédite inférieure à celle observée. Pour calculer la MSE, vous devez d'abord carré chaque valeur de variation, ce qui élimine les signes moins et donne 0,5625, 0,4225, 0,0625, 0,0625 et 0,25. La somme de ces valeurs donne 1,36 et la division par le nombre de mesures moins 2, qui est 3, donne la MSE, qui s'avère être 0,45.
MSE et RMSE
Des valeurs plus petites pour MSE indiquent un accord plus étroit entre les résultats prédits et observés, et un MSE de 0,0 indique un accord parfait. Il est important de se rappeler, cependant, que les valeurs de variation sont au carré. Lorsqu'une mesure d'erreur est requise dans les mêmes unités que les points de données, les statisticiens prennent l'erreur quadratique moyenne (RMSE). Ils l'obtiennent en prenant la racine carrée de l'erreur quadratique moyenne. Pour l'exemple ci-dessus, le RSME serait de 0,671 ou environ 67 cents.