Когато учени, икономисти или статистици правят прогнози въз основа на теорията и след това събират реални данни, те се нуждаят от начин за измерване на вариацията между прогнозираните и измерените стойности. Те обикновено разчитат на средната квадратична грешка (MSE), която е сумата от вариациите на отделните точки на квадрат на квадрат и разделени на броя точки с данни минус 2. Когато данните се показват на графика, вие определяте MSE чрез сумиране на вариациите в точките с данни за вертикалната ос. На графика x-y това би било y-стойностите.
Защо да варираме вариациите?
Умножаването на вариацията между прогнозираните и наблюдаваните стойности има два желани ефекта. Първият е да се гарантира, че всички ценности са положителни. Ако една или повече стойности са отрицателни, сборът от всички стойности може да бъде нереалистично малък и лошо представяне на действителната вариация между прогнозираните и наблюдаваните стойности. Второто предимство на квадратурата е да се придаде по-голяма тежест на по-големите разлики, което гарантира, че голяма стойност за MSE означава големи вариации на данните.
Примерен алгоритъм за изчисляване на запасите
Да предположим, че имате алгоритъм, който ежедневно прогнозира цените на дадена акция. В понеделник прогнозира цената на акциите да бъде $ 5,50, във вторник $ 6,00, сряда $ 6,00, четвъртък $ 7,50 и петък $ 8,00. Считайки понеделник за ден 1, имате набор от точки с данни, които изглеждат така: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) и (5, 8.00). Действителните цени са както следва: Понеделник 4,75 $ (1, 4,75); Вторник $ 5,35 (2, 5,35); Сряда $ 6,25 (3, 6,25); Четвъртък $ 7.25 (4, 7.25); и петък: $ 8.50 (5, 8.50).
Вариациите между y-стойностите на тези точки са съответно 0,75, 0,65, -0,25, 0,25 и -0,50, където отрицателният знак показва предсказана стойност, по-малка от наблюдаваната. За да изчислите MSE, първо квадратирате всяка стойност на вариацията, която елиминира знаците минус и дава 0,5625, 0,4225, 0,0625, 0,0625 и 0,25. Сумирането на тези стойности дава 1,36 и разделянето на броя на измерванията минус 2, което е 3, дава MSE, който се оказва 0,45.
MSE и RMSE
По-малките стойности за MSE показват по-тясно съгласие между прогнозираните и наблюдаваните резултати, а MSE от 0,0 показва перфектно съгласие. Важно е обаче да запомните, че стойностите на вариацията са на квадрат. Когато се изисква измерване на грешка, която е в същите единици като точките с данни, статистиците приемат средно квадратната грешка (RMSE). Те получават това, като вземат квадратния корен от средната квадратна грешка. За горния пример RSME ще бъде 0,671 или около 67 цента.