Kad znanstvenici, ekonomisti ili statističari daju predviđanja temeljena na teoriji, a zatim prikupljaju stvarne podatke, potreban im je način za mjerenje razlike između predviđenih i izmjerenih vrijednosti. Obično se oslanjaju na srednju kvadratnu pogrešku (MSE), koja je zbroj varijacija pojedinih podatkovnih točaka na kvadrat i podijeljenih s brojem podatkovnih točaka minus 2. Kada su podaci prikazani na grafikonu, MSE određujete zbrajanjem varijacija u točkama podataka okomite osi. Na x-y grafikonu to bi bile vrijednosti y.
Zašto kvadrat varijacije?
Množenje varijacija između predviđenih i promatranih vrijednosti ima dva poželjna učinka. Prvo je osigurati da su sve vrijednosti pozitivne. Ako su jedna ili više vrijednosti bile negativne, zbroj svih vrijednosti mogao bi biti nerealno mali i loš prikaz stvarne varijacije između predviđenih i promatranih vrijednosti. Druga prednost kvadriranja je davanje veće težine većim razlikama, što osigurava da velika vrijednost za MSE označava velike varijacije podataka.
Algoritam dionica proračuna uzoraka
Pretpostavimo da imate algoritam koji svakodnevno predviđa cijene određene dionice. U ponedjeljak predviđa cijenu dionica 5,50 USD, u utorak 6,00 USD, srijedu 6,00 USD, četvrtak 7,50 USD i petak 8,00 USD. S obzirom na ponedjeljak kao 1. dan, imate skup podatkovnih točaka koji se pojavljuju ovako: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) i (5, 8.00). Stvarne cijene su sljedeće: Ponedjeljak 4,75 USD (1, 4,75); Utorak 5,35 dolara (2, 5,35); Srijeda 6,25 USD (3, 6,25); Četvrtak 7,25 dolara (4, 7,25); i petak: 8,50 USD (5, 8,50).
Varijacije između y-vrijednosti ovih točaka su 0,75, 0,65, -0,25, 0,25 i -0,50, pri čemu negativni predznak označava predviđenu vrijednost manju od promatrane. Da biste izračunali MSE, prvo kvadraturu svake vrijednosti varijacije, koja uklanja znakove minus i daje 0,5625, 0,4225, 0,0625, 0,0625 i 0,25. Zbrajanjem ovih vrijednosti dobiva se 1,36 i dijeljenjem s brojem mjerenja minus 2, što je 3, daje MSE, koji ispada 0,45.
MSE i RMSE
Manje vrijednosti za MSE ukazuju na bliže slaganje između predviđenih i promatranih rezultata, a MSE od 0,0 ukazuje na savršeno slaganje. Važno je, međutim, imati na umu da su vrijednosti varijacija na kvadrat. Kada je potrebno mjerenje pogreške koja se nalazi u istim jedinicama kao i podatkovne točke, statističari uzimaju pogrešku srednjeg kvadrata (RMSE). To dobivaju uzimajući kvadratni korijen srednje kvadratne pogreške. Za gornji primjer RSME bi iznosio 0,671 ili oko 67 centi.