Wenn Wissenschaftler, Ökonomen oder Statistiker auf der Grundlage von Theorien Vorhersagen treffen und dann echte Daten sammeln, brauchen sie eine Möglichkeit, die Abweichung zwischen vorhergesagten und gemessenen Werten zu messen. Sie beruhen normalerweise auf dem mittleren quadratischen Fehler (MSE), der die Summe der Variationen der einzelnen Datenpunkte quadriert und durch die Anzahl der Datenpunkte minus 2 geteilt wird. Wenn die Daten in einem Diagramm angezeigt werden, bestimmen Sie den MSE durch Summieren der Variationen in den Datenpunkten der vertikalen Achse. In einem x-y-Diagramm wären das die y-Werte.
Warum die Variationen quadrieren?
Die Multiplikation der Variation zwischen vorhergesagten und beobachteten Werten hat zwei wünschenswerte Effekte. Die erste besteht darin, sicherzustellen, dass alle Werte positiv sind. Wenn ein oder mehrere Werte negativ waren, könnte die Summe aller Werte unrealistisch klein und eine schlechte Darstellung der tatsächlichen Abweichung zwischen vorhergesagten und beobachteten Werten sein. Der zweite Vorteil der Quadrierung besteht darin, größeren Unterschieden mehr Gewicht zu verleihen, wodurch sichergestellt wird, dass ein großer Wert für MSE große Datenvariationen bedeutet.
Beispielrechnung für Bestandsalgorithmus
Angenommen, Sie haben einen Algorithmus, der täglich die Kurse einer bestimmten Aktie vorhersagt. Am Montag wird der Aktienkurs mit 5,50 USD, am Dienstag mit 6 USD, Mittwoch mit 6 USD, Donnerstag mit 7,50 USD und Freitag mit 8,00 USD prognostiziert. Betrachtet man Montag als Tag 1, so hat man eine Reihe von Datenpunkten, die wie folgt aussehen: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) und (5, 8.00). Die tatsächlichen Preise sind wie folgt: Montag 4,75 $ (1, 4,75); Dienstag 5,35 USD (2, 5,35); Mittwoch 6,25 $ (3, 6,25); Donnerstag 7,25 $ (4, 7,25); und Freitag: 8,50 $ (5, 8,50).
Die Variationen zwischen den y-Werten dieser Punkte betragen 0,75, 0,65, -0,25, 0,25 bzw. -0,50, wobei das negative Vorzeichen einen vorhergesagten Wert anzeigt, der kleiner als der beobachtete ist. Um den MSE zu berechnen, quadrieren Sie zuerst jeden Variationswert, wodurch die Minuszeichen eliminiert werden und 0,5625, 0,4225, 0,0625, 0,0625 und 0,25 erhalten werden. Summiert man diese Werte, erhält man 1,36 und dividiert durch die Anzahl der Messungen minus 2, was 3 ergibt, ergibt den MSE, der 0,45 beträgt.
MSE und RMSE
Kleinere Werte für MSE zeigen eine engere Übereinstimmung zwischen vorhergesagten und beobachteten Ergebnissen an, und ein MSE von 0,0 zeigt eine perfekte Übereinstimmung an. Beachten Sie jedoch, dass die Variationswerte quadriert werden. Wenn eine Fehlermessung in den gleichen Einheiten wie die Datenpunkte erforderlich ist, nehmen Statistiker den quadratischen Mittelwertfehler (RMSE). Dies erhalten sie, indem sie die Quadratwurzel des mittleren quadratischen Fehlers ziehen. Für das obige Beispiel würde der RSME 0,671 oder etwa 67 Cent betragen.