Когда ученые, экономисты или статистики делают прогнозы, основанные на теории, а затем собирают реальные данные, им нужен способ измерить различия между прогнозируемыми и измеренными значениями. Обычно они полагаются на среднеквадратичную ошибку (MSE), которая представляет собой сумму вариаций отдельных точек данных, возведенных в квадрат и деленную на количество точек данных минус 2. Когда данные отображаются на графике, вы определяете MSE путем суммирования вариаций точек данных вертикальной оси. На графике x-y это будут значения y.
Зачем возводить вариации в квадрат?
Умножение вариации между предсказанными и наблюдаемыми значениями дает два желаемых эффекта. Первый - убедиться, что все значения положительны. Если одно или несколько значений были отрицательными, сумма всех значений могла бы быть нереально малой и плохим представлением фактического разброса между прогнозируемыми и наблюдаемыми значениями. Второе преимущество возведения в квадрат - это придание большего веса большим различиям, что гарантирует, что большое значение для MSE означает большие вариации данных.
Пример алгоритма расчета запасов
Предположим, у вас есть алгоритм, который ежедневно прогнозирует цены на определенную акцию. В понедельник прогнозируется, что цена акций составит 5,50 доллара, во вторник - 6 долларов, в среду - 6 долларов, в четверг - 7,50 долларов и в пятницу - 8 долларов. Если рассматривать понедельник как день 1, у вас есть набор точек данных, который выглядит следующим образом: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) и (5, 8.00). Фактические цены следующие: понедельник 4,75 доллара (1, 4,75); Вторник $ 5,35 (2, 5,35); Среда $ 6,25 (3, 6,25); Четверг $ 7,25 (4, 7,25); и пятница: 8,50 долларов (5, 8,50).
Различия между значениями y этих точек составляют 0,75, 0,65, -0,25, 0,25 и -0,50 соответственно, где отрицательный знак указывает на прогнозируемое значение меньше наблюдаемого. Чтобы вычислить MSE, вы сначала возводите в квадрат каждое значение вариации, что исключает знаки минус и дает 0,5625, 0,4225, 0,0625, 0,0625 и 0,25. Суммирование этих значений дает 1,36, а деление на количество измерений минус 2, что составляет 3, дает MSE, которое оказывается равным 0,45.
MSE и RMSE
Меньшие значения MSE указывают на более близкое соответствие между предсказанными и наблюдаемыми результатами, а MSE 0,0 указывает на полное совпадение. Однако важно помнить, что значения вариации возведены в квадрат. Когда требуется измерение ошибки в тех же единицах, что и точки данных, статистики берут среднеквадратичную ошибку (RMSE). Они получают это, извлекая квадратный корень из среднеквадратичной ошибки. В приведенном выше примере RSME будет составлять 0,671 или около 67 центов.