Kun tutkijat, taloustieteilijät tai tilastotieteilijät tekevät ennusteita teorian perusteella ja sitten keräävät todellisia tietoja, he tarvitsevat tapaa mitata ennustettujen ja mitattujen arvojen vaihtelu. Ne luottavat yleensä keskimääräiseen neliövirheeseen (MSE), joka on yksittäisten datapisteiden muunnosten summa neliöineen jaettuna datapisteiden lukumäärällä miinus 2. Kun tiedot näytetään kaaviossa, määritetään MSE summaamalla pystysuorien akselien datapisteiden vaihtelut. X-y-kuvaajassa ne olisivat y-arvot.
Miksi neliöt muunnelmat?
Ennustettujen ja havaittujen arvojen vaihtelun kertomalla on kaksi toivottavaa vaikutusta. Ensimmäinen on varmistaa, että kaikki arvot ovat positiivisia. Jos yksi tai useampi arvo oli negatiivinen, kaikkien arvojen summa voi olla epärealistisesti pieni ja heikko edustus ennustettujen ja havaittujen arvojen välillä. Neliöinnin toinen etu on antaa enemmän painoa suuremmille eroille, mikä varmistaa, että suuri arvo MSE: lle merkitsee suuria datan vaihteluita.
Näyte laskentakannan algoritmista
Oletetaan, että sinulla on algoritmi, joka ennustaa tietyn osakkeen hinnat päivittäin. Maanantaina osakekurssin ennustetaan olevan 5,50 dollaria, tiistaina 6,00 dollaria, keskiviikkona 6,00 dollaria, torstaina 7,50 dollaria ja perjantaina 8,00 dollaria. Koska maanantai on päivä 1, sinulla on joukko datapisteitä, jotka näyttävät tältä: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) ja (5, 8.00). Todelliset hinnat ovat seuraavat: maanantai 4,75 dollaria (1, 4,75); Tiistai 5,35 dollaria (2, 5,35); Keskiviikko 6,25 dollaria (3, 6,25); Torstaina 7,25 dollaria (4, 7,25); ja perjantaina: 8,50 dollaria (5, 8,50).
Näiden pisteiden y-arvojen vaihtelut ovat vastaavasti 0,75, 0,65, -0,25, 0,25 ja -0,50, missä negatiivinen merkki osoittaa ennustetun arvon, joka on pienempi kuin havaittu. MSE: n laskemiseksi sinun on ensin neliöitettävä jokaisen muunnelman arvo, joka eliminoi miinusmerkit ja tuottaa arvot 0,5625, 0,4225, 0,0625, 0,0625 ja 0,25. Näiden arvojen yhteenlaskeminen antaa 1,36 ja jakamalla mittausten lukumäärällä miinus 2, joka on 3, saadaan MSE, joka osoittautuu 0,45: ksi.
MSE ja RMSE
Pienemmät MSE-arvot osoittavat läheisempää sopimusta ennustettujen ja havaittujen tulosten välillä, ja MSE 0,0 tarkoittaa täydellistä sopimusta. On kuitenkin tärkeää muistaa, että vaihteluarvot ovat neliöitä. Kun tarvitaan virhemittaus, joka on samoissa yksiköissä kuin datapisteet, tilastotieteilijät ottavat neliövirheen (RMSE). He saavat tämän ottamalla neliön juuren keskimääräisestä neliövirheestä. Yllä olevassa esimerkissä RSME olisi 0,671 eli noin 67 senttiä.