Όταν επιστήμονες, οικονομολόγοι ή στατιστικολόγοι κάνουν προβλέψεις με βάση τη θεωρία και στη συνέχεια συλλέγουν πραγματικά δεδομένα, χρειάζονται έναν τρόπο για να μετρήσουν τη διακύμανση μεταξύ των προβλεπόμενων και των μετρημένων τιμών. Συνήθως βασίζονται στο μέσο τετράγωνο σφάλμα (MSE), το οποίο είναι το άθροισμα των παραλλαγών των μεμονωμένων σημείων δεδομένων που τετραγωνίζονται και διαιρούνται με τον αριθμό των σημείων δεδομένων μείον 2. Όταν τα δεδομένα εμφανίζονται σε ένα γράφημα, καθορίζετε το MSE αθροίζοντας τις παραλλαγές στα σημεία δεδομένων κάθετου άξονα. Σε ένα γράφημα x-y, αυτές θα ήταν οι τιμές y.
Γιατί να τετράγωνα τις παραλλαγές;
Ο πολλαπλασιασμός της διακύμανσης μεταξύ των προβλεπόμενων και των παρατηρούμενων τιμών έχει δύο επιθυμητά αποτελέσματα. Το πρώτο είναι να διασφαλιστεί ότι όλες οι τιμές είναι θετικές. Εάν μία ή περισσότερες τιμές ήταν αρνητικές, το άθροισμα όλων των τιμών θα μπορούσε να είναι ρεαλιστικά μικρό και μια κακή αναπαράσταση της πραγματικής διακύμανσης μεταξύ των προβλεπόμενων και των παρατηρούμενων τιμών. Το δεύτερο πλεονέκτημα του τετραγώνου είναι να δοθεί περισσότερο βάρος σε μεγαλύτερες διαφορές, γεγονός που διασφαλίζει ότι μια μεγάλη τιμή για το MSE σημαίνει μεγάλες παραλλαγές δεδομένων.
Αλγόριθμος Αποθέματος Υπολογισμού Δείγματος
Ας υποθέσουμε ότι έχετε έναν αλγόριθμο που προβλέπει τις τιμές ενός συγκεκριμένου αποθέματος σε καθημερινή βάση. Τη Δευτέρα, προβλέπει ότι η τιμή της μετοχής θα είναι 5,50 $, την Τρίτη θα είναι 6,00 $, Τετάρτη 6,00 $, Πέμπτη 7,50 $ και Παρασκευή 8,00 $. Θεωρώντας τη Δευτέρα ως Ημέρα 1, έχετε ένα σύνολο σημείων δεδομένων που εμφανίζεται ως εξής: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) και (5, 8.00). Οι πραγματικές τιμές είναι οι εξής: Δευτέρα 4,75 $ (1, 4,75). Τρίτη 5,35 $ (2, 5,35); Τετάρτη 6,25 $ (3, 6,25) Πέμπτη 7,25 $ (4, 7,25) και Παρασκευή: 8,50 $ (5, 8,50).
Οι διακυμάνσεις μεταξύ των τιμών y αυτών των σημείων είναι 0,75, 0,65, -0,25, 0,25 και -0,50 αντίστοιχα, όπου το αρνητικό σύμβολο υποδεικνύει μια προβλεπόμενη τιμή μικρότερη από την παρατηρούμενη. Για τον υπολογισμό του MSE, τετραγωνίζετε πρώτα κάθε τιμή παραλλαγής, η οποία εξαλείφει τα αρνητικά σημάδια και αποδίδει 0,5625, 0,4225, 0,0625, 0,0625 και 0,25. Το άθροισμα αυτών των τιμών δίνει 1,36 και διαίρεση με τον αριθμό των μετρήσεων μείον 2, που είναι 3, αποδίδει το MSE, που αποδεικνύεται ότι είναι 0,45.
MSE και RMSE
Οι μικρότερες τιμές για το MSE υποδηλώνουν στενότερη συμφωνία μεταξύ των προβλεπόμενων και των παρατηρηθέντων αποτελεσμάτων και ένα MSE 0,0 υποδηλώνει τέλεια συμφωνία Είναι σημαντικό, ωστόσο, να θυμόμαστε ότι οι τιμές παραλλαγής είναι τετράγωνες. Όταν απαιτείται μια μέτρηση σφάλματος που είναι στις ίδιες μονάδες με τα σημεία δεδομένων, οι στατιστικολόγοι λαμβάνουν το ριζικό μέσο τετράγωνο σφάλμα (RMSE). Το επιτυγχάνουν λαμβάνοντας την τετραγωνική ρίζα του μέσου τετραγωνικού σφάλματος. Για το παραπάνω παράδειγμα, το RSME θα ήταν 0,671 ή περίπου 67 σεντ.