Lineær regresjon er en statistisk metode for å undersøke forholdet mellom en avhengig variabel, betegnet som y, og en eller flere uavhengige variabler, betegnet som x. Den avhengige variabelen må være kontinuerlig, ved at den kan ta en hvilken som helst verdi, eller i det minste nær kontinuerlig. De uavhengige variablene kan være av hvilken som helst type. Selv om lineær regresjon ikke kan vise årsakssammenheng av seg selv, blir den avhengige variabelen vanligvis påvirket av de uavhengige variablene.
Lineær regresjon er begrenset til lineære forhold
I sin natur ser lineær regresjon bare på lineære forhold mellom avhengige og uavhengige variabler. Det vil si at det antar at det er et rettforhold mellom dem. Noen ganger er dette feil. For eksempel er forholdet mellom inntekt og alder buet, dvs. inntekt har en tendens til å stige i de tidlige delene av voksenlivet, flate ut senere i voksenlivet og synke etter at folk pensjonerer seg. Du kan se om dette er et problem ved å se på grafiske fremstillinger av forholdene.
Lineær regresjon ser bare på gjennomsnittet av den avhengige variabelen
Lineær regresjon ser på et forhold mellom gjennomsnittet av den avhengige variabelen og de uavhengige variablene. For eksempel hvis du ser på forholdet mellom fødselsvekten til spedbarn og mors egenskaper som alder, lineær regresjon vil se på gjennomsnittsvekten til babyer født til mødre til forskjellige aldre. Noen ganger må du imidlertid se på ytterpunktene til den avhengige variabelen, for eksempel er babyer i fare når vekten er lav, så du vil se på ekstremene i dette eksemplet.
Akkurat som gjennomsnittet ikke er en fullstendig beskrivelse av en enkelt variabel, er ikke lineær regresjon en fullstendig beskrivelse av forholdet mellom variabler. Du kan takle dette problemet ved å bruke kvantil regresjon.
Lineær regresjon er følsom for utenforstående
Outliers er data som er overraskende. Outliers kan være univariate (basert på en variabel) eller multivariate. Hvis du ser på alder og inntekt, vil univariate avvikere være ting som en person som er 118 år gammel, eller en som tjente 12 millioner dollar i fjor. En multivariat outlier ville være en 18-åring som tjente 200 000 dollar. I dette tilfellet er verken alderen eller inntekten veldig ekstrem, men svært få 18 år gamle mennesker tjener så mye penger.
Outliers kan ha enorme effekter på regresjonen. Du kan takle dette problemet ved å be om påvirkningsstatistikk fra den statistiske programvaren.
Data må være uavhengige
Lineær regresjon forutsetter at dataene er uavhengige. Det betyr at poengene til ett emne (for eksempel en person) ikke har noe med andres å gjøre. Dette er ofte, men ikke alltid, fornuftig. To vanlige tilfeller der det ikke gir mening er klynging i rom og tid.
Et klassisk eksempel på klynging i verdensrommet er studenttestresultater når du har studenter fra forskjellige klasser, karakterer, skoler og skolekretser. Studenter i samme klasse har en tendens til å være like på mange måter, dvs. de kommer ofte fra de samme nabolagene, de har de samme lærerne osv. Dermed er de ikke uavhengige.
Eksempler på klynging i tid er alle studier der du måler de samme fagene flere ganger. For eksempel, i en studie av diett og vekt, kan du måle hver person flere ganger. Disse dataene er ikke uavhengige fordi det en person veier ved en anledning er relatert til det han eller hun veier ved andre anledninger. En måte å håndtere dette på er med modeller på flere nivåer.