Regresja liniowa to statystyczna metoda badania związku między zmienną zależną, oznaczoną jako tak, oraz jedną lub więcej zmiennych niezależnych, oznaczonych jako x. Zmienna zależna musi być ciągła, czyli może przyjmować dowolną wartość lub przynajmniej zbliżoną do ciągłej. Zmienne niezależne mogą być dowolnego typu. Chociaż regresja liniowa nie może sama wykazać związku przyczynowego, na zmienną zależną zwykle wpływają zmienne niezależne.
Regresja liniowa ogranicza się do relacji liniowych
Ze swej natury regresja liniowa analizuje tylko relacje liniowe między zmiennymi zależnymi i niezależnymi. Oznacza to, że zakłada, że istnieje między nimi relacja liniowa. Czasami jest to niepoprawne. Na przykład zależność między dochodem a wiekiem jest zakrzywiona, tj. dochód ma tendencję do wzrostu we wczesnych latach dorosłości, spłaszczenia w późniejszej dorosłości i spadku po przejściu na emeryturę. Możesz stwierdzić, czy jest to problem, patrząc na graficzne reprezentacje relacji.
Regresja liniowa uwzględnia tylko średnią zmiennej zależnej
Regresja liniowa analizuje związek między średnią zmiennej zależnej a zmiennymi niezależnymi. Na przykład, jeśli spojrzysz na związek między masą urodzeniową niemowląt a masą matki cechy takie jak wiek, regresja liniowa będą analizować średnią wagę dzieci urodzonych przez matki Różne wieki. Czasami jednak trzeba spojrzeć na skrajności zmiennej zależnej, np. niemowlęta są zagrożone, gdy ich waga jest niska, więc warto przyjrzeć się skrajnościom w tym przykładzie.
Tak jak średnia nie jest pełnym opisem pojedynczej zmiennej, tak regresja liniowa nie jest pełnym opisem zależności między zmiennymi. Możesz poradzić sobie z tym problemem za pomocą regresji kwantylowej.
Regresja liniowa jest wrażliwa na wartości odstające
Wartości odstające to zaskakujące dane. Wartości odstające mogą być jednowymiarowe (na podstawie jednej zmiennej) lub wielowymiarowe. Jeśli spojrzysz na wiek i dochody, jednowymiarowymi wartościami odstającymi będą rzeczy takie jak osoba, która ma 118 lat lub osoba, która w zeszłym roku zarobiła 12 milionów dolarów. Wielowymiarową wartością odstającą byłby 18-latek, który zarobił 200 000 USD. W tym przypadku ani wiek, ani dochody nie są bardzo ekstremalne, ale niewiele 18-latków zarabia tyle pieniędzy.
Wartości odstające mogą mieć ogromny wpływ na regresję. Możesz poradzić sobie z tym problemem, żądając od swojego oprogramowania statystycznego statystyk wpływu.
Dane muszą być niezależne
Regresja liniowa zakłada, że dane są niezależne. Oznacza to, że wyniki jednego przedmiotu (np. osoby) nie mają nic wspólnego z wynikami innego. Często, ale nie zawsze, jest to rozsądne. Dwa typowe przypadki, w których nie ma to sensu, skupiają się w przestrzeni i czasie.
Klasycznym przykładem klastrowania w przestrzeni są wyniki testów uczniów, gdy masz uczniów z różnych klas, klas, szkół i okręgów szkolnych. Uczniowie z tej samej klasy są podobni pod wieloma względami, np. często pochodzą z tej samej okolicy, mają tych samych nauczycieli itp. Nie są więc niezależne.
Przykładami grupowania w czasie są dowolne badania, w których wielokrotnie mierzysz te same przedmioty. Na przykład, badając dietę i wagę, możesz mierzyć każdą osobę wiele razy. Dane te nie są niezależne, ponieważ to, co dana osoba waży jednorazowo, jest powiązane z tym, co waży ona przy innych okazjach. Jednym ze sposobów radzenia sobie z tym są modele wielopoziomowe.