Linjär regression är en statistisk metod för att undersöka sambandet mellan en beroende variabel, betecknad som y, och en eller flera oberoende variabler, betecknade som x. Den beroende variabeln måste vara kontinuerlig genom att den kan ta ett valfritt värde eller åtminstone nära kontinuerlig. De oberoende variablerna kan vara av vilken typ som helst. Även om linjär regression inte i sig kan visa orsakssamband påverkas den beroende variabeln vanligtvis av de oberoende variablerna.
Linjär regression är begränsad till linjära relationer
Av sin natur ser linjär regression endast på linjära förhållanden mellan beroende och oberoende variabler. Det antar att det finns ett linjärt förhållande mellan dem. Ibland är detta felaktigt. Till exempel är förhållandet mellan inkomst och ålder krökt, dvs inkomst tenderar att öka i de tidiga delarna av vuxenlivet, plana ut i senare vuxen ålder och minska efter att människor går i pension. Du kan se om detta är ett problem genom att titta på grafiska representationer av relationerna.
Linjär regression ser bara på medelvärdet av den beroende variabeln
Linjär regression ser på ett samband mellan medelvärdet av den beroende variabeln och de oberoende variablerna. Till exempel om du tittar på förhållandet mellan spädbarns födelsevikt och moderns egenskaper som ålder, linjär regression kommer att se på den genomsnittliga vikten hos barn födda till mödrar till olika åldrar. Ibland måste du dock titta på extremerna hos den beroende variabeln, t.ex. spädbarn är i riskzonen när deras vikter är låga, så du skulle vilja titta på extremiteterna i detta exempel.
Precis som medelvärdet inte är en fullständig beskrivning av en enda variabel, är linjär regression inte en fullständig beskrivning av relationer mellan variabler. Du kan hantera detta problem genom att använda kvantil regression.
Linjär regression är känslig för outliers
Outliers är data som är förvånande. Outliers kan vara univariata (baserat på en variabel) eller multivariata. Om du tittar på ålder och inkomst skulle univariata avvikare vara saker som en person som är 118 år gammal eller en som tjänade 12 miljoner dollar förra året. En multivariat outlier skulle vara en 18-åring som tjänade 200 000 dollar. I det här fallet är varken åldern eller inkomsten mycket extrem, men väldigt få 18-åriga människor tjänar så mycket pengar.
Outliers kan ha enorma effekter på regressionen. Du kan hantera detta problem genom att begära påverkansstatistik från din statistiska programvara.
Data måste vara oberoende
Linjär regression förutsätter att uppgifterna är oberoende. Det betyder att poängen för ett ämne (som en person) inte har något att göra med andras. Detta är ofta men inte alltid förnuftigt. Två vanliga fall där det inte är vettigt är kluster i rum och tid.
Ett klassiskt exempel på kluster i rymden är studentens testresultat när du har studenter från olika klasser, betyg, skolor och skolområden. Studenter i samma klass tenderar att vara lika på många sätt, dvs. de kommer ofta från samma stadsdelar, de har samma lärare etc. De är alltså inte oberoende.
Exempel på kluster i tid är alla studier där du mäter samma ämnen flera gånger. I en studie av kost och vikt kan du till exempel mäta varje person flera gånger. Dessa uppgifter är inte oberoende eftersom vad en person väger vid ett tillfälle är relaterat till vad han eller hon väger vid andra tillfällen. Ett sätt att hantera detta är med modeller för flera nivåer.