Regresia liniară este o metodă statistică pentru examinarea relației dintre o variabilă dependentă, notată ca da, și una sau mai multe variabile independente, notate ca X. Variabila dependentă trebuie să fie continuă, în sensul că poate lua orice valoare sau cel puțin aproape de continuă. Variabilele independente pot fi de orice tip. Deși regresia liniară nu poate prezenta cauzalitatea de la sine, variabila dependentă este de obicei afectată de variabilele independente.
Regresia liniară este limitată la relațiile liniare
Prin natura sa, regresia liniară privește doar relațiile liniare dintre variabilele dependente și independente. Adică, presupune că există o relație liniară între ele. Uneori acest lucru este incorect. De exemplu, relația dintre venit și vârstă este curbată, adică venitul tinde să crească în primele părți ale vârstei adulte, să se aplatizeze la vârsta adultă ulterioară și să scadă după retragerea oamenilor. Puteți afla dacă aceasta este o problemă uitându-vă la reprezentări grafice ale relațiilor.
Regresia liniară se uită doar la media variabilei dependente
Regresia liniară analizează o relație între media variabilei dependente și variabilele independente. De exemplu, dacă te uiți la relația dintre greutatea la naștere a sugarilor și maternă caracteristici precum vârsta, regresia liniară se vor uita la greutatea medie a bebelușilor născuți de mame de diferite vârste. Cu toate acestea, uneori trebuie să te uiți la extremele variabilei dependente, de exemplu, bebelușii sunt expuși riscului atunci când greutatea lor este mică, așa că ai dori să te uiți la extremele din acest exemplu.
La fel cum media nu este o descriere completă a unei singure variabile, regresia liniară nu este o descriere completă a relațiilor dintre variabile. Puteți rezolva această problemă utilizând regresia cuantilă.
Regresia liniară este sensibilă la valori aberante
Valorile aberante sunt date surprinzătoare. Valorile aberante pot fi univariate (bazate pe o singură variabilă) sau multivariate. Dacă vă uitați la vârstă și venituri, valorile aberante univariate ar fi lucruri precum o persoană care are 118 ani sau una care a câștigat 12 milioane de dolari anul trecut. Un outlier multivariat ar fi un tânăr de 18 ani care a câștigat 200.000 de dolari. În acest caz, nici vârsta, nici veniturile nu sunt foarte extreme, dar foarte puțini tineri de 18 ani câștigă atât de mulți bani.
Valorile aberante pot avea efecte uriașe asupra regresiei. Puteți rezolva această problemă solicitând statistici de influență de la software-ul dvs. statistic.
Datele trebuie să fie independente
Regresia liniară presupune că datele sunt independente. Asta înseamnă că scorurile unui subiect (cum ar fi o persoană) nu au nimic de-a face cu cele ale altuia. Acest lucru este adesea, dar nu întotdeauna, sensibil. Două cazuri obișnuite în care nu are sens se grupează în spațiu și timp.
Un exemplu clasic de grupare în spațiu îl reprezintă scorurile testelor elevilor, atunci când aveți elevi din diferite clase, clase, școli și districte școlare. Elevii din aceeași clasă tind să fie similari din multe puncte de vedere, adică provin adesea din aceleași cartiere, au aceiași profesori etc. Astfel, nu sunt independenți.
Exemple de grupare în timp sunt orice studii în care măsurați aceiași subiecți de mai multe ori. De exemplu, într-un studiu privind dieta și greutatea, ați putea măsura fiecare persoană de mai multe ori. Aceste date nu sunt independente, deoarece ceea ce cântărește o persoană cu o ocazie este legat de ceea ce cântărește cu alte ocazii. O modalitate de a rezolva acest lucru este cu modelele pe mai multe niveluri.