Wanneer wetenschappers, economen of statistici voorspellingen doen op basis van theorie en vervolgens echte gegevens verzamelen, hebben ze een manier nodig om de variatie tussen voorspelde en gemeten waarden te meten. Ze vertrouwen meestal op de gemiddelde kwadratische fout (MSE), de som van de variaties van de individuele gegevenspunten in het kwadraat en gedeeld door het aantal gegevenspunten minus 2. Wanneer de gegevens in een grafiek worden weergegeven, bepaalt u de MSE door de variaties in de gegevenspunten van de verticale as op te tellen. Op een x-y-grafiek zouden dat de y-waarden zijn.
Waarom de variaties kwadrateren?
Het vermenigvuldigen van de variatie tussen voorspelde en waargenomen waarden heeft twee gewenste effecten. De eerste is ervoor te zorgen dat alle waarden positief zijn. Als een of meer waarden negatief waren, zou de som van alle waarden onrealistisch klein kunnen zijn en een slechte weergave van de werkelijke variatie tussen voorspelde en waargenomen waarden. Het tweede voordeel van kwadrateren is om grotere verschillen meer gewicht te geven, wat ervoor zorgt dat een grote waarde voor MSE grote gegevensvariaties betekent.
Voorbeeldberekening Voorraadalgoritme
Stel dat u een algoritme heeft dat dagelijks de koersen van een bepaald aandeel voorspelt. Op maandag voorspelt het de aandelenkoers $ 5,50, op dinsdag $ 6,00, woensdag $ 6,00, donderdag $ 7,50 en vrijdag $ 8,00. Als u maandag als dag 1 beschouwt, heeft u een set gegevenspunten die er als volgt uitziet: (1, 5,50), (2, 6,00), (3, 6,00), (4, 7,50) en (5, 8,00). De werkelijke prijzen zijn als volgt: maandag $ 4,75 (1, 4,75); dinsdag $ 5,35 (2, 5,35); woensdag $ 6,25 (3, 6,25); Donderdag $ 7,25 (4, 7,25); en vrijdag: $ 8,50 (5, 8,50).
De variaties tussen de y-waarden van deze punten zijn respectievelijk 0,75, 0,65, -0,25, 0,25 en -0,50, waarbij het negatieve teken een voorspelde waarde aangeeft die kleiner is dan de waargenomen waarde. Om MSE te berekenen, kwadrateert u eerst elke variatiewaarde, waardoor de mintekens worden geƫlimineerd en 0,5625, 0,4225, 0,0625, 0,0625 en 0,25 worden verkregen. Het optellen van deze waarden geeft 1,36 en delen door het aantal metingen minus 2, wat 3 is, levert de MSE op, die 0,45 blijkt te zijn.
MSE en RMSE
Kleinere waarden voor MSE duiden op een nauwere overeenstemming tussen voorspelde en waargenomen resultaten, en een MSE van 0,0 duidt op perfecte overeenstemming. Het is echter belangrijk om te onthouden dat de variatiewaarden gekwadrateerd zijn. Wanneer een foutmeting nodig is die in dezelfde eenheden is als de gegevenspunten, nemen statistici de root mean square error (RMSE). Ze verkrijgen dit door de vierkantswortel van de gemiddelde vierkantsfout te nemen. Voor het bovenstaande voorbeeld zou de RSME 0,671 of ongeveer 67 cent zijn.