Η γραμμική παλινδρόμηση είναι μια στατιστική μέθοδος για την εξέταση της σχέσης μεταξύ μιας εξαρτημένης μεταβλητής, που υποδηλώνεται ως ε, και μία ή περισσότερες ανεξάρτητες μεταβλητές, με την ένδειξη Χ. Η εξαρτημένη μεταβλητή πρέπει να είναι συνεχής, καθώς μπορεί να έχει οποιαδήποτε τιμή ή τουλάχιστον κοντά στη συνεχή. Οι ανεξάρτητες μεταβλητές μπορεί να είναι οποιουδήποτε τύπου. Αν και η γραμμική παλινδρόμηση δεν μπορεί να δείξει από μόνη της αιτία, η εξαρτημένη μεταβλητή επηρεάζεται συνήθως από τις ανεξάρτητες μεταβλητές.
Η γραμμική παλινδρόμηση περιορίζεται στις γραμμικές σχέσεις
Από τη φύση της, η γραμμική παλινδρόμηση εξετάζει μόνο τις γραμμικές σχέσεις μεταξύ εξαρτημένων και ανεξάρτητων μεταβλητών. Δηλαδή, υποθέτει ότι υπάρχει μια ευθεία σχέση μεταξύ τους. Μερικές φορές αυτό είναι λανθασμένο. Για παράδειγμα, η σχέση μεταξύ του εισοδήματος και της ηλικίας είναι καμπύλη, δηλαδή, το εισόδημα τείνει να αυξάνεται στα πρώτα μέρη της ενηλικίωσης, να ισοπεδώνεται αργότερα στην ενήλικη ζωή και να μειώνεται μετά τη συνταξιοδότηση των ανθρώπων. Μπορείτε να διαπιστώσετε εάν αυτό είναι πρόβλημα κοιτάζοντας γραφικές παραστάσεις των σχέσεων.
Η γραμμική παλινδρόμηση εξετάζει μόνο τον μέσο όρο της εξαρτώμενης μεταβλητής
Η γραμμική παλινδρόμηση εξετάζει μια σχέση μεταξύ του μέσου όρου της εξαρτημένης μεταβλητής και των ανεξάρτητων μεταβλητών. Για παράδειγμα, αν κοιτάξετε τη σχέση μεταξύ του βάρους γέννησης των βρεφών και της μητέρας χαρακτηριστικά όπως η ηλικία, η γραμμική παλινδρόμηση θα εξετάσει το μέσο βάρος των μωρών που γεννιούνται από μητέρες διαφορετικές ηλικίες. Ωστόσο, μερικές φορές πρέπει να κοιτάξετε τα άκρα της εξαρτημένης μεταβλητής, π.χ. τα μωρά κινδυνεύουν όταν τα βάρη τους είναι χαμηλά, οπότε θα θέλατε να δείτε τα άκρα σε αυτό το παράδειγμα.
Ακριβώς όπως ο μέσος όρος δεν είναι μια πλήρης περιγραφή μιας μεμονωμένης μεταβλητής, η γραμμική παλινδρόμηση δεν είναι μια πλήρης περιγραφή των σχέσεων μεταξύ των μεταβλητών. Μπορείτε να αντιμετωπίσετε αυτό το πρόβλημα χρησιμοποιώντας την ποσοτική παλινδρόμηση.
Η γραμμική παλινδρόμηση είναι ευαίσθητη στα ακραία σημεία
Το Outliers είναι δεδομένα που είναι εκπληκτικά. Το Outliers μπορεί να είναι univariate (με βάση μία μεταβλητή) ή multivariate. Εάν κοιτάζετε την ηλικία και το εισόδημα, τα univariate outliers θα είναι πράγματα όπως ένα άτομο που είναι 118 ετών ή ένα που έκανε 12 εκατομμύρια δολάρια πέρυσι. Ένα πολυπαραγοντικό outlier θα ήταν ένας 18χρονος που έκανε 200.000 $. Σε αυτήν την περίπτωση, ούτε η ηλικία ούτε το εισόδημα είναι πολύ ακραία, αλλά πολύ λίγοι άνθρωποι 18 ετών κερδίζουν τόσα πολλά χρήματα.
Το Outliers μπορεί να έχει τεράστιες επιπτώσεις στην παλινδρόμηση. Μπορείτε να αντιμετωπίσετε αυτό το πρόβλημα ζητώντας στατιστικά στοιχεία επιρροής από το στατιστικό σας λογισμικό.
Τα δεδομένα πρέπει να είναι ανεξάρτητα
Η γραμμική παλινδρόμηση προϋποθέτει ότι τα δεδομένα είναι ανεξάρτητα. Αυτό σημαίνει ότι οι βαθμολογίες ενός θέματος (όπως ένα άτομο) δεν έχουν καμία σχέση με αυτές του άλλου. Αυτό είναι συχνά, αλλά όχι πάντα, λογικό. Δύο κοινές περιπτώσεις όπου δεν έχει νόημα είναι ομαδοποίηση στο χώρο και το χρόνο.
Ένα κλασικό παράδειγμα ομαδοποίησης στο διάστημα είναι οι βαθμολογίες των εξετάσεων των μαθητών, όταν έχετε μαθητές από διάφορες τάξεις, τάξεις, σχολεία και σχολικές περιοχές. Οι μαθητές στην ίδια τάξη τείνουν να είναι παρόμοιοι με πολλούς τρόπους, δηλαδή, συχνά προέρχονται από τις ίδιες γειτονιές, έχουν τους ίδιους δασκάλους κ.λπ. Έτσι, δεν είναι ανεξάρτητοι.
Παραδείγματα ομαδοποίησης χρόνου είναι οποιεσδήποτε μελέτες όπου μετράτε τα ίδια θέματα πολλές φορές. Για παράδειγμα, σε μια μελέτη για τη διατροφή και το βάρος, μπορείτε να μετρήσετε κάθε άτομο πολλές φορές. Αυτά τα δεδομένα δεν είναι ανεξάρτητα, επειδή αυτό που ζυγίζει ένα άτομο σχετίζεται με αυτό που ζυγίζει σε άλλες περιπτώσεις. Ένας τρόπος αντιμετώπισης αυτού είναι με πολυεπίπεδα μοντέλα.