Když vědci, ekonomové nebo statistici předpovídají na základě teorie a poté shromažďují skutečná data, potřebují způsob, jak měřit rozdíly mezi předpovídanými a měřenými hodnotami. Obvykle se spoléhají na střední kvadratickou chybu (MSE), což je součet variací jednotlivých datových bodů na druhou a dělený počtem datových bodů minus 2. Když jsou data zobrazena v grafu, určujete MSE součtem variací v datových bodech svislé osy. Na grafu x-y by to byly hodnoty y.
Proč umocnit variace?
Vynásobení variace mezi predikovanými a pozorovanými hodnotami má dva žádoucí účinky. Prvním je zajistit, aby všechny hodnoty byly kladné. Pokud by jedna nebo více hodnot byly záporné, součet všech hodnot by mohl být nereálně malý a špatná reprezentace skutečné odchylky mezi predikovanými a pozorovanými hodnotami. Druhou výhodou kvadratury je dát větší váhu větším rozdílům, což zajišťuje, že velká hodnota pro MSE znamená velké varianty dat.
Ukázka výpočtu skladového algoritmu
Předpokládejme, že máte algoritmus, který denně předpovídá ceny konkrétní akcie. V pondělí předpovídá cenu akcií na 5,50 USD, v úterý na 6,00 USD, ve středu 6,00 USD, ve čtvrtek 7,50 USD a v pátek 8,00 USD. Vzhledem k tomu, že pondělí je den 1, máte sadu datových bodů, která vypadá takto: (1, 5,50), (2, 6,00), (3, 6,00), (4, 7,50) a (5, 8,00). Skutečné ceny jsou následující: pondělí 4,75 USD (1, 4,75); Úterý 5,35 $ (2, 5,35); Středa 6,25 $ (3; 6,25); Čtvrtek 7,25 $ (4, 7,25); a pátek: 8,50 $ (5, 8,50).
Rozdíly mezi hodnotami y těchto bodů jsou 0,75, 0,65, -0,25, 0,25, respektive -0,50, přičemž záporné znaménko označuje předpovězenou hodnotu menší než pozorovaná. Chcete-li vypočítat MSE, musíte nejprve zaokrouhlit každou hodnotu variace, což eliminuje znaménka minus a poskytuje 0,5625, 0,4225, 0,0625, 0,0625 a 0,25. Součet těchto hodnot dává 1,36 a vydělením počtem měření minus 2, což je 3, se získá MSE, který se ukáže jako 0,45.
MSE a RMSE
Menší hodnoty pro MSE naznačují užší shodu mezi předpovídanými a pozorovanými výsledky a MSE 0,0 označuje dokonalou shodu. Je důležité si uvědomit, že hodnoty variací jsou čtvercové. Pokud je požadováno měření chyb, které je ve stejných jednotkách jako datové body, statistici vezmou chybu s odmocninou (RMSE). Získají to tak, že vezmeme druhou odmocninu střední druhé odmocniny. Pro výše uvedený příklad by RSME byla 0,671 nebo přibližně 67 centů.