Nevýhody lineárnej regresie

Lineárna regresia je štatistická metóda na skúmanie vzťahu medzi závislou premennou, ktorá sa označuje ako y, a jedna alebo viac nezávislých premenných označených ako X. Závislá premenná musí byť spojitá v tom, že môže nadobúdať ľubovoľnú hodnotu alebo aspoň blízku spojitej. Nezávislé premenné môžu byť ľubovoľného typu. Aj keď lineárna regresia nemôže sama osebe spôsobiť príčinnú súvislosť, závislú premennú zvyčajne ovplyvňujú nezávislé premenné.

Lineárna regresia je obmedzená na lineárne vzťahy

Lineárna regresia svojou podstatou sleduje iba lineárne vzťahy medzi závislými a nezávislými premennými. To znamená, že predpokladá, že medzi nimi existuje priamy vzťah. Niekedy je to nesprávne. Napríklad vzťah medzi príjmom a vekom je zakrivený, to znamená, že príjem má tendenciu stúpať v raných fázach dospelosti, vyrovnáva sa v neskoršej dospelosti a klesá po odchode ľudí do dôchodku. Či je to problém, zistíte tak, že sa pozriete na grafické znázornenie vzťahov.

Lineárna regresia sleduje iba priemer závislej premennej

instagram story viewer

Lineárna regresia sleduje vzťah medzi priemerom závislej premennej a nezávislých premenných. Napríklad, ak sa pozriete na vzťah medzi pôrodnou hmotnosťou dojčiat a matiek charakteristiky, ako je vek, lineárna regresia, sa bude zaoberať priemernou hmotnosťou detí narodených matkám rôzneho veku. Niekedy sa však musíte pozrieť na extrémy závislej premennej, napríklad deti sú ohrozené, keď majú nízku váhu, takže by ste sa chceli pozrieť na extrémy v tomto príklade.

Rovnako ako stredná hodnota nie je úplným popisom jednej premennej, lineárna regresia nie je úplným popisom vzťahov medzi premennými. Tento problém môžete vyriešiť pomocou kvantilovej regresie.

Lineárna regresia je citlivá na odľahlé hodnoty

Odľahlé hodnoty sú údaje, ktoré sú prekvapivé. Odľahlé hodnoty môžu byť jednorozmerné (na základe jednej premennej) alebo viacrozmerné. Ak sa pozriete na vek a príjem, jednorozmerné odľahlé hodnoty by boli veci ako človek, ktorý má 118 rokov, alebo ten, ktorý minulý rok zarobil 12 miliónov dolárov. Mnohorozmerným odľahlým výsledkom by bol 18-ročný mladík, ktorý zarobil 200 000 dolárov. V takom prípade nie je vek ani príjem veľmi extrémny, ale len veľmi málo 18-ročných ľudí zarobí toľko peňazí.

Odľahlé hodnoty môžu mať obrovský vplyv na regresiu. Tento problém môžete vyriešiť vyžiadaním štatistík vplyvu zo svojho štatistického softvéru.

Údaje musia byť nezávislé

Lineárna regresia predpokladá, že údaje sú nezávislé. To znamená, že skóre jedného predmetu (napríklad osoby) nemá nič spoločné s výsledkami druhého. To je často, ale nie vždy, rozumné. Dva bežné prípady, keď to nemá zmysel, sú zhlukovanie v priestore a čase.

Klasickým príkladom zoskupovania vo vesmíre sú výsledky testov študentov, keď máte študentov z rôznych tried, ročníkov, škôl a školských obvodov. Študenti v tej istej triede majú tendenciu byť si v mnohom podobní, t. J. Často pochádzajú z rovnakých štvrtí, majú rovnakých učiteľov atď. Nie sú teda nezávislé.

Príklady zoskupenia v čase sú akékoľvek štúdie, v ktorých meriate viackrát rovnaké predmety. Napríklad pri štúdiu stravovania a hmotnosti môžete každú osobu merať viackrát. Tieto údaje nie sú nezávislé, pretože to, čo človek váži pri jednej príležitosti, súvisí s tým, čo váži pri iných príležitostiach. Jedným zo spôsobov riešenia tohto problému sú viacúrovňové modely.

Teachs.ru
  • Zdieľam
instagram viewer