A lineáris regresszió egy statisztikai módszer a függő változó közötti kapcsolat vizsgálatára, amelyet jelöléssel jelölünk y, és egy vagy több független változó, amelyet jelölünk x. A függő változónak folytonosnak kell lennie, amennyiben bármilyen értéket fel tud venni, vagy legalábbis közel áll a folytonoshoz. A független változók bármilyen típusúak lehetnek. Bár a lineáris regresszió önmagában nem képes ok-okozati összefüggést mutatni, a függő változót általában a független változók befolyásolják.
A lineáris regresszió a lineáris kapcsolatokra korlátozódik
Természetéből adódóan a lineáris regresszió csak a függő és független változók közötti lineáris kapcsolatokat vizsgálja. Vagyis feltételezi, hogy lineáris kapcsolat van közöttük. Néha ez helytelen. Például a jövedelem és az élet viszonya görbe, vagyis a jövedelem a felnőttkor korai szakaszaiban növekszik, a későbbi felnőttkorban ellaposodik és az emberek nyugdíjazása után csökken. A kapcsolatok grafikus ábrázolásával megtudhatja, hogy ez probléma-e.
A lineáris regresszió csak a függő változó átlagát vizsgálja
A lineáris regresszió összefüggést vizsgál a függő változó átlaga és a független változók között. Például, ha megnézzük a csecsemők születési súlya és az anya közötti kapcsolatot az olyan jellemzők, mint az életkor, a lineáris regresszió, az anyák születésének átlagos súlyát vizsgálják különböző korúak. Néha azonban meg kell vizsgálnia a függő változó szélsőségeit, például a csecsemők veszélyeztetettek, ha alacsony a súlyuk, ezért érdemes ebben a példában a szélsőségeket megvizsgálni.
Ahogy az átlag nem egy változó teljes leírása, a lineáris regresszió sem a változók közötti kapcsolatok teljes leírása. Kvantilis regresszió segítségével kezelheti ezt a problémát.
A lineáris regresszió érzékeny a kiugró értékekre
A kiugró értékek meglepő adatok. A kiugró értékek lehetnek egyváltozósak (egy változó alapján) vagy többváltozósak. Ha az életkorot és a jövedelmet nézi, akkor az egyváltozós kiugró értékek olyanok lennének, mint egy 118 éves ember, vagy aki tavaly 12 millió dollárt keresett. Többváltozós kiugró lenne egy 18 éves, aki 200 000 dollárt keresett. Ebben az esetben sem az életkor, sem a jövedelem nem túl szélsőséges, de nagyon kevés 18 éves ember keres ennyi pénzt.
A kiugró értékeknek hatalmas hatása lehet a regresszióra. Akkor kezelheti ezt a problémát, ha befolyásolási statisztikákat kér a statisztikai szoftverétől.
Az adatoknak függetlennek kell lenniük
A lineáris regresszió feltételezi, hogy az adatok függetlenek. Ez azt jelenti, hogy az egyik tantárgy (például egy személy) pontszámainak semmi köze a másikéhoz. Ez gyakran, de nem mindig értelmes. Két gyakori eset, amikor nincs értelme, térben és időben csoportosul.
Az űr klaszterezésének klasszikus példája a hallgatói tesztek eredményei, amikor különböző osztályokból, évfolyamokból, iskolákból és iskolai körzetekből érkeznek diákok. Ugyanannak az osztálynak a hallgatói általában sok szempontból hasonlóak, vagyis gyakran ugyanabból a környékből származnak, ugyanazok a tanáraik vannak stb. Így nem függetlenek.
Példák az időben történő csoportosításra bármely olyan tanulmány, amelyben ugyanazokat a tantárgyakat többször is megmérik. Például az étrend és a testsúly vizsgálatakor minden embert többször is megmérhet. Ezek az adatok nem függetlenek, mert az, hogy egy személy mit mér egy alkalommal, összefügg azzal, amit máskor mér. Ennek egyik módja a többszintű modellek.