Lineární regrese je statistická metoda pro zkoumání vztahu mezi závislou proměnnou, označenou jako y, a jedna nebo více nezávislých proměnných označených jako X. Závislá proměnná musí být spojitá v tom, že může nabývat jakékoli hodnoty, nebo alespoň blízká spojité. Nezávislé proměnné mohou být jakéhokoli typu. Ačkoli lineární regrese nemůže sama o sobě ukázat příčinnou souvislost, závislá proměnná je obvykle ovlivněna nezávislými proměnnými.
Lineární regrese je omezena na lineární vztahy
Lineární regrese ze své podstaty sleduje pouze lineární vztahy mezi závislými a nezávislými proměnnými. To znamená, že předpokládá, že mezi nimi existuje přímý vztah. Někdy je to nesprávné. Například vztah mezi příjmem a věkem je zakřivený, tj. Příjem má tendenci stoupat v raných fázích dospělosti, vyrovnat se v pozdější dospělosti a klesat po odchodu lidí do důchodu. To, zda jde o problém, poznáte podle grafických znázornění vztahů.
Lineární regrese se dívá pouze na průměr závislé proměnné
Lineární regrese zkoumá vztah mezi průměrem závislé proměnné a nezávislými proměnnými. Například pokud se podíváte na vztah mezi porodní hmotností kojenců a matek charakteristiky, jako je věk, lineární regrese, budou zkoumat průměrnou váhu dětí narozených matkám různého věku. Někdy se však musíte podívat na extrémy závislé proměnné, např. Děti jsou ohroženy, když mají nízkou váhu, takže byste se chtěli podívat na extrémy v tomto příkladu.
Stejně jako průměr není úplným popisem jedné proměnné, lineární regrese není úplným popisem vztahů mezi proměnnými. S tímto problémem se můžete vypořádat pomocí kvantilové regrese.
Lineární regrese je citlivá na odlehlé hodnoty
Odlehlé hodnoty jsou údaje, které jsou překvapivé. Odlehlé hodnoty mohou být jednorozměrné (na základě jedné proměnné) nebo vícerozměrné. Pokud se díváte na věk a příjem, jednorozměrné odlehlé hodnoty by byly věci jako člověk, kterému je 118 let, nebo ten, kdo v loňském roce vydělal 12 milionů dolarů. Multivariační odlehlou hodnotou by byl 18letý mladík, který vydělal 200 000 dolarů. V tomto případě není věk ani příjem příliš extrémní, ale jen velmi málo 18letých vydělá tolik peněz.
Odlehlé hodnoty mohou mít obrovský dopad na regresi. S tímto problémem se můžete vyrovnat tím, že budete požadovat statistiku vlivu ze svého statistického softwaru.
Data musí být nezávislá
Lineární regrese předpokládá, že data jsou nezávislá. To znamená, že skóre jednoho subjektu (například osoby) nemá nic společného s výsledky druhého. To je často, ale ne vždy, rozumné. Dva běžné případy, kdy to nedává smysl, jsou shlukování v prostoru a čase.
Klasickým příkladem shlukování ve vesmíru jsou výsledky testů studentů, když máte studenty z různých tříd, ročníků, škol a školních obvodů. Studenti ve stejné třídě mají tendenci být si v mnoha ohledech podobní, tj. Často pocházejí ze stejných čtvrtí, mají stejné učitele atd. Nejsou tedy nezávislí.
Příkladem shlukování v čase jsou jakékoli studie, ve kterých měříte stejné předměty vícekrát. Například ve studii o stravě a hmotnosti můžete každou osobu měřit několikrát. Tyto údaje nejsou nezávislé, protože to, co člověk váží při jedné příležitosti, souvisí s tím, co váží při jiných příležitostech. Jedním ze způsobů, jak to vyřešit, jsou víceúrovňové modely.