Multipel regression bruges til at undersøge forholdet mellem flere uafhængige variabler og en afhængig variabel. Mens flere regressionsmodeller giver dig mulighed for at analysere den relative indflydelse af disse uafhængige eller forudsigende variabler på afhængig, eller kriterium, variabel, kan disse ofte komplekse datasæt føre til falske konklusioner, hvis de ikke analyseres korrekt.
Eksempler på multipel regression
En ejendomsmægler kunne bruge multipel regression til at analysere værdien af huse. For eksempel kunne hun bruge som uafhængige variabler størrelsen på husene, deres alder, antallet af soveværelser, den gennemsnitlige boligpris i nabolaget og nærheden til skoler. Ved at tegne disse i en multipel regressionsmodel kunne hun derefter bruge disse faktorer til at se deres forhold til huspriserne som kriterievariablen.
Et andet eksempel på brug af en multipel regressionsmodel kan være en person inden for menneskelige ressourcer, der bestemmer lønnen til lederstillinger - kriterievariablen. Prediktorvariablerne kunne være hver leders anciennitet, det gennemsnitlige antal arbejdede timer, antallet af personer, der ledes, og lederens afdelingsbudget.
Fordele ved multipel regression
Der er to hovedfordele ved at analysere data ved hjælp af en multipel regressionsmodel. Den første er evnen til at bestemme den relative indflydelse af en eller flere forudsigelsesvariabler på kriterieværdien. Ejendomsmægleren kunne finde ud af, at størrelsen på boliger og antallet af soveværelser har en stærk sammenhæng med prisen på en hjemme, mens nærheden til skoler slet ikke har nogen sammenhæng eller endda en negativ sammenhæng, hvis det primært er pensionering fællesskab.
Den anden fordel er evnen til at identificere afvigelser eller anomalier. For eksempel, mens man gennemgår data relateret til ledelseslønninger, kunne personalechefen finde ud af, at antal arbejdede timer, afdelingens størrelse og dets budget havde alle en stærk sammenhæng med lønninger, mens anciennitet gjorde ikke. Alternativt kan det være, at alle de anførte forudsigelsesværdier var korreleret med hver af de lønninger, der blev undersøgt, bortset fra en leder, der blev overbetalt i forhold til de andre.
Ulemper ved multipel regression
Enhver ulempe ved at bruge en multipel regressionsmodel kommer normalt ned til de data, der bruges. To eksempler på dette er at bruge ufuldstændige data og fejlagtigt konkludere, at en sammenhæng er en årsagssammenhæng.
Når du f.eks. Gennemgår prisen på boliger, skal du antage, at ejendomsmægleren kun kiggede på 10 boliger, hvoraf syv blev købt af unge forældre. I dette tilfælde kan forholdet mellem skolernes nærhed få hende til at tro, at dette havde en indvirkning på salgsprisen for alle boliger, der sælges i samfundet. Dette illustrerer faldgruberne ved ufuldstændige data. Havde hun brugt en større prøve, kunne hun have fundet ud af, at ud af 100 solgte boliger kun ti procent af boligværdierne var relateret til skolens nærhed. Hvis hun havde brugt købernes alder som en forudsigelsesværdi, kunne hun have fundet ud af, at yngre købere var villige til at betale mere for boliger i samfundet end ældre købere.
I eksemplet med ledelseslønninger antager der, at der var en outlier, der havde et mindre budget, mindre anciennitet og med færre personale til at styre, men tjente mere end nogen anden. HR-chefen kunne se på dataene og konkludere, at denne person bliver overbetalt. Denne konklusion ville imidlertid være fejlagtig, hvis han ikke tog højde for, at denne manager var ansvarlig for virksomhedens websted og havde en meget eftertragtet dygtighed inden for netværkssikkerhed.