Lineær regression er en statistisk metode til at undersøge forholdet mellem en afhængig variabel, betegnet som y, og en eller flere uafhængige variabler, betegnet som x. Den afhængige variabel skal være kontinuerlig, idet den kan tage en hvilken som helst værdi eller i det mindste tæt på kontinuerlig. De uafhængige variabler kan være af enhver type. Selvom lineær regression ikke i sig selv kan vise årsagssammenhæng, påvirkes den afhængige variabel normalt af de uafhængige variabler.
Lineær regression er begrænset til lineære forhold
Efter sin art ser lineær regression kun på lineære forhold mellem afhængige og uafhængige variabler. Det antager, at der er et lige forhold mellem dem. Nogle gange er dette forkert. For eksempel er forholdet mellem indkomst og alder buet, dvs. indkomst har tendens til at stige i de tidlige dele af voksenalderen, flade ud i senere voksenalder og falde, når folk går på pension. Du kan se, om dette er et problem ved at se på grafiske repræsentationer af forholdet.
Lineær regression ser kun på gennemsnittet af den afhængige variabel
Lineær regression ser på et forhold mellem gennemsnittet af den afhængige variabel og de uafhængige variabler. For eksempel, hvis du ser på forholdet mellem fødselsvægt hos spædbørn og moderens egenskaber som alder, lineær regression vil se på gennemsnitsvægten af babyer født til mødre til forskellige aldre. Men nogle gange er du nødt til at se på ekstremerne af den afhængige variabel, f.eks. Er babyer i fare, når deres vægt er lav, så du vil gerne se på ekstremerne i dette eksempel.
Ligesom middelværdien ikke er en komplet beskrivelse af en enkelt variabel, er lineær regression ikke en komplet beskrivelse af forholdet mellem variabler. Du kan håndtere dette problem ved hjælp af kvantil regression.
Lineær regression er følsom over for outliers
Outliers er data, der er overraskende. Outliers kan være univariate (baseret på en variabel) eller multivariate. Hvis du ser på alder og indkomst, ville univariate outliers være ting som en person, der er 118 år gammel, eller en, der tjente 12 millioner dollars sidste år. En multivariat outlier ville være en 18-årig, der tjente $ 200.000. I dette tilfælde er hverken alder eller indkomst meget ekstrem, men meget få 18-årige mennesker tjener så mange penge.
Outliers kan have enorme virkninger på regressionen. Du kan håndtere dette problem ved at anmode om indflydelsesstatistik fra din statistiske software.
Data skal være uafhængige
Lineær regression antager, at dataene er uafhængige. Det betyder, at scoringerne for et emne (såsom en person) ikke har noget med et andet at gøre. Dette er ofte men ikke altid fornuftigt. To almindelige tilfælde, hvor det ikke giver mening, er klynger i rum og tid.
Et klassisk eksempel på klyngedannelse i rummet er elevtestresultater, når du har studerende fra forskellige klasser, kvaliteter, skoler og skoledistrikter. Studerende i samme klasse har tendens til at være ens på mange måder, dvs. de kommer ofte fra de samme kvarterer, de har de samme lærere osv. De er således ikke uafhængige.
Eksempler på klyngning i tide er alle undersøgelser, hvor du måler de samme emner flere gange. For eksempel kan du i en undersøgelse af diæt og vægt måle hver person flere gange. Disse data er ikke uafhængige, fordi det, som en person vejer ved en lejlighed, er relateret til det, han eller hun vejer ved andre lejligheder. En måde at tackle dette på er med modeller på flere niveauer.