Die lineare Regression ist eine statistische Methode zur Untersuchung der Beziehung zwischen einer abhängigen Variablen, bezeichnet als y, und eine oder mehrere unabhängige Variablen, bezeichnet als x. Die abhängige Variable muss stetig sein, da sie jeden beliebigen Wert annehmen kann oder zumindest nahezu stetig ist. Die unabhängigen Variablen können von beliebigem Typ sein. Obwohl die lineare Regression allein keine Kausalität zeigen kann, wird die abhängige Variable normalerweise von den unabhängigen Variablen beeinflusst.
Lineare Regression ist auf lineare Beziehungen beschränkt
Die lineare Regression betrachtet naturgemäß nur lineare Beziehungen zwischen abhängigen und unabhängigen Variablen. Das heißt, es wird davon ausgegangen, dass zwischen ihnen eine geradlinige Beziehung besteht. Manchmal ist dies falsch. Zum Beispiel ist die Beziehung zwischen Einkommen und Alter gekrümmt, d. h. das Einkommen steigt im frühen Erwachsenenalter tendenziell an, flacht sich im späteren Erwachsenenalter ab und nimmt nach der Pensionierung ab. Sie können feststellen, ob dies ein Problem ist, indem Sie sich die grafischen Darstellungen der Beziehungen ansehen.
Lineare Regression betrachtet nur den Mittelwert der abhängigen Variablen
Die lineare Regression untersucht eine Beziehung zwischen dem Mittelwert der abhängigen Variablen und den unabhängigen Variablen. Betrachtet man zum Beispiel die Beziehung zwischen dem Geburtsgewicht von Säuglingen und dem mütterlichen Merkmale wie Alter, lineare Regression untersucht das Durchschnittsgewicht von Babys, die von Müttern geboren wurden verschiedene Alter. Manchmal müssen Sie jedoch die Extreme der abhängigen Variablen betrachten, z. B. Babys sind gefährdet, wenn ihr Gewicht niedrig ist.
Genauso wie der Mittelwert keine vollständige Beschreibung einer einzelnen Variablen ist, ist die lineare Regression keine vollständige Beschreibung der Beziehungen zwischen Variablen. Sie können dieses Problem mit der Quantilregression lösen.
Lineare Regression reagiert empfindlich auf Ausreißer
Ausreißer sind überraschende Daten. Ausreißer können univariat (basierend auf einer Variablen) oder multivariat sein. Wenn Sie Alter und Einkommen betrachten, wären univariate Ausreißer Dinge wie eine Person, die 118 Jahre alt ist oder eine Person, die letztes Jahr 12 Millionen US-Dollar verdient hat. Ein multivariater Ausreißer wäre ein 18-Jähriger, der 200.000 Dollar verdient hat. In diesem Fall ist weder das Alter noch das Einkommen sehr extrem, aber die wenigsten 18-Jährigen verdienen so viel Geld.
Ausreißer können große Auswirkungen auf die Regression haben. Sie können dieses Problem umgehen, indem Sie Einflussstatistiken von Ihrer Statistiksoftware anfordern.
Daten müssen unabhängig sein
Die lineare Regression geht davon aus, dass die Daten unabhängig sind. Das bedeutet, dass die Punktzahlen eines Subjekts (z. B. einer Person) nichts mit denen eines anderen zu tun haben. Dies ist oft, aber nicht immer sinnvoll. Zwei häufige Fälle, in denen es keinen Sinn ergibt, sind Cluster in Raum und Zeit.
Ein klassisches Beispiel für Clustering im Weltraum sind Schülertestergebnisse, wenn Sie Schüler aus verschiedenen Klassen, Klassen, Schulen und Schulbezirken haben. Schüler einer Klasse sind sich in vielerlei Hinsicht ähnlich, d. h. sie kommen oft aus den gleichen Stadtteilen, haben die gleichen Lehrer usw. Somit sind sie nicht unabhängig.
Beispiele für das zeitliche Clustering sind alle Studien, in denen Sie dieselben Probanden mehrmals messen. In einer Studie über Ernährung und Gewicht können Sie beispielsweise jede Person mehrmals messen. Diese Daten sind nicht unabhängig, da das, was eine Person bei einer Gelegenheit wiegt, mit dem zusammenhängt, was sie bei anderen Gelegenheiten wiegt. Eine Möglichkeit, dies zu umgehen, sind mehrstufige Modelle.