Amikor a tudósok, közgazdászok vagy statisztikusok elmélet alapján jósolnak, majd valós adatokat gyűjtenek, szükségük van egy módszerre az előre jelzett és a mért értékek eltérésének mérésére. Általában az átlagos négyzethibára (MSE) támaszkodnak, amely az egyes adatpontok variációinak összege négyzetre osztva elosztva az adatpontok mínusz 2 számával. Amikor az adatok grafikonon jelennek meg, az MSE-t a függőleges tengely adatpontjainak variációinak összegzésével határozza meg. Egy x-y grafikonon ezek lennének az y-értékek.
Miért négyzet a változatok?
Az előrejelzett és a megfigyelt értékek közötti variációnak két kívánatos hatása van. Az első annak biztosítása, hogy minden érték pozitív legyen. Ha egy vagy több érték negatív lenne, az összes érték összege irreálisan kicsi lehet, és rosszul reprezentálhatja az előrejelzett és megfigyelt értékek tényleges eltérését. A négyzetezés második előnye, hogy nagyobb súlyt ad a nagyobb különbségeknek, ami biztosítja, hogy az MSE nagy értéke nagy adatváltozásokat jelez.
Minta számítási készlet algoritmus
Tegyük fel, hogy van algoritmusa, amely napi szinten megjósolja egy adott részvény árát. Hétfőn a részvényárfolyam 5,50 dollárt, kedden 6,00, szerdán 6,00, csütörtökön 7,50 és pénteken 8,00 dollárt jósol. Ha a hétfõt 1. napnak tekintjük, akkor az adatpontok halmaza így jelenik meg: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) és (5, 8.00). A tényleges árak a következők: hétfő 4,75 USD (1, 4,75); Kedd 5,35 USD (2, 5,35); Szerda 6,25 USD (3, 6,25); Csütörtök 7,25 USD (4, 7,25); pénteken: 8,50 USD (5, 8,50).
Ezen pontok y-értékei közötti eltérések 0,75, 0,65, -0,25, 0,25 és -0,50, ahol a negatív előjel a becsültnél kisebb becsült értéket jelez. Az MSE kiszámításához először négyzetre kell állítania az egyes variációs értékeket, amelyek kiküszöbölik a mínuszjeleket és 0,5625, 0,4225, 0,0625, 0,0625 és 0,25 eredményt adnak. Ezeknek az értékeknek az összegzése 1,36-ot ad, és elosztva a mérések számának mínusz 2-vel, amely 3, az MSE-t kapjuk, amely 0,45-nek bizonyul.
MSE és RMSE
Az MSE kisebb értékei szorosabb egyetértést jeleznek az előre jelzett és a megfigyelt eredmények között, a 0,0 MSE pedig tökéletes egyetértést jelez. Fontos azonban megjegyezni, hogy a variációs értékek négyzetesek. Ha olyan hibamérésre van szükség, amely ugyanazokban az egységekben van, mint az adatpontok, a statisztikusok a négyzet alapértelmezett hibáját (RMSE) veszik át. Ezt úgy kapják meg, hogy átveszik az átlagos négyzethiba négyzetgyökét. A fenti példa esetében az RSME 0,671 vagy körülbelül 67 cent lenne.