Die multiple Regression wird verwendet, um die Beziehung zwischen mehreren unabhängigen Variablen und einer abhängigen Variablen zu untersuchen. Während multiple Regressionsmodelle es Ihnen ermöglichen, die relativen Einflüsse dieser unabhängigen oder Prädiktorvariablen auf die abhängige oder kriterielle Variable, diese oft komplexen Datensätze können zu falschen Schlussfolgerungen führen, wenn sie nicht analysiert werden richtig.
Beispiele für multiple Regression
Ein Immobilienmakler könnte mehrere Regressionen verwenden, um den Wert von Häusern zu analysieren. Als unabhängige Variablen könnte sie beispielsweise die Größe der Häuser, ihr Alter, die Anzahl der Schlafzimmer, den durchschnittlichen Hauspreis in der Nachbarschaft und die Nähe zu Schulen verwenden. In einem multiplen Regressionsmodell könnte sie diese Faktoren dann verwenden, um deren Verhältnis zu den Preisen der Häuser als Kriteriumsvariable zu sehen.
Ein weiteres Beispiel für die Verwendung eines multiplen Regressionsmodells könnte eine Person im Personalwesen sein, die das Gehalt von Führungspositionen bestimmt – die Kriteriumsvariable. Die Prädiktorvariablen könnten das Dienstalter jedes Managers, die durchschnittliche Anzahl der geleisteten Arbeitsstunden, die Anzahl der verwalteten Personen und das Abteilungsbudget des Managers sein.
Vorteile der multiplen Regression
Die Analyse von Daten mit einem multiplen Regressionsmodell hat zwei Hauptvorteile. Die erste ist die Fähigkeit, den relativen Einfluss einer oder mehrerer Prädiktorvariablen auf den Kriteriumswert zu bestimmen. Der Immobilienmakler konnte feststellen, dass die Größe der Wohnungen und die Anzahl der Schlafzimmer eine starke Korrelation mit dem Preis von a. haben zu Hause, während die Nähe zu Schulen überhaupt keinen oder sogar einen negativen Zusammenhang hat, wenn es sich in erster Linie um eine Rente handelt Gemeinschaft.
Der zweite Vorteil ist die Möglichkeit, Ausreißer oder Anomalien zu erkennen. Beispielsweise könnte der Personalleiter bei der Überprüfung der Daten zu den Gehältern des Managements feststellen, dass die Anzahl der gearbeiteten Stunden, die Größe der Abteilung und ihr Budget korrelierten stark mit den Gehältern, während die Dienstaltersstufe nicht. Alternativ könnte es sein, dass alle aufgeführten Prädiktorwerte mit jedem der untersuchten Gehälter korreliert waren, mit Ausnahme eines Managers, der im Vergleich zu den anderen überbezahlt war.
Nachteile der multiplen Regression
Jeder Nachteil bei der Verwendung eines multiplen Regressionsmodells hängt normalerweise von den verwendeten Daten ab. Zwei Beispiele hierfür sind die Verwendung unvollständiger Daten und die fälschliche Schlussfolgerung, dass eine Korrelation eine Kausalität ist.
Angenommen, der Immobilienmakler hat sich bei der Überprüfung des Immobilienpreises nur 10 Häuser angesehen, von denen sieben von jungen Eltern gekauft wurden. In diesem Fall könnte die Beziehung zwischen der Nähe von Schulen zu der Annahme führen, dass sich dies auf den Verkaufspreis aller in der Gemeinde verkauften Häuser ausgewirkt hat. Dies verdeutlicht die Fallstricke unvollständiger Daten. Hätte sie eine größere Stichprobe verwendet, hätte sie feststellen können, dass von 100 verkauften Wohnungen nur zehn Prozent der Wohnungswerte auf die Nähe einer Schule bezogen waren. Hätte sie das Alter der Käufer als Prädiktorwert verwendet, hätte sie feststellen können, dass jüngere Käufer bereit waren, mehr für Häuser in der Gemeinde zu zahlen als ältere Käufer.
Nehmen wir im Beispiel der Managementgehälter an, es gäbe einen Ausreißer, der ein kleineres Budget, weniger Dienstalter und weniger Personal zu verwalten hatte, aber mehr verdiente als alle anderen. Der Personalleiter könnte sich die Daten ansehen und feststellen, dass diese Person zu viel bezahlt wird. Diese Schlussfolgerung wäre jedoch falsch, würde er nicht berücksichtigen, dass dieser Manager für die Website des Unternehmens verantwortlich war und über ein sehr begehrtes Know-how in Netzwerksicherheit verfügte.