Linijinė regresija yra statistinis metodas, skirtas tirti priklausomo kintamojo ryšį, žymimą kaip y, ir vienas ar keli nepriklausomi kintamieji, žymimi kaip x. Priklausomas kintamasis turi būti tęstinis, nes jis gali įgyti bet kurią reikšmę arba bent jau artimas tęstiniam. Nepriklausomi kintamieji gali būti bet kokio tipo. Nors tiesinė regresija negali parodyti priežastinio ryšio savaime, priklausomą kintamąjį paprastai veikia nepriklausomi kintamieji.
Linijinė regresija apsiriboja tiesiniais santykiais
Pagal savo pobūdį tiesinė regresija nagrinėja tik tiesinius ryšius tarp priklausomų ir nepriklausomų kintamųjų. Tai reiškia, kad daroma prielaida, kad tarp jų yra tiesiniai santykiai. Kartais tai neteisinga. Pavyzdžiui, santykis tarp pajamų ir amžiaus yra kreivas, t.y., pajamos linkusios didėti ankstyvosiose suaugusiųjų dalyse, išsilyginti vėlesniame amžiuje ir mažėti žmonėms išėjus į pensiją. Ar tai yra problema, galite sužinoti pažiūrėję grafinius santykių vaizdus.
Tik tiesine regresija žiūrima į priklausomo kintamojo vidurkį
Tiesinė regresija nagrinėja priklausomo kintamojo vidurkio ir nepriklausomų kintamųjų santykį. Pavyzdžiui, jei pažvelgsite į kūdikio ir motinos gimimo svorio santykį tokias charakteristikas kaip amžius, tiesinė regresija bus vertinamas vidutinis kūdikių, gimusių motinoms, svoris skirtingo amžiaus. Tačiau kartais reikia pažvelgti į priklausomo kintamojo kraštutinumus, pvz., Kūdikiams gresia pavojus, kai jų svoris yra mažas, todėl šiame pavyzdyje norėtumėte pažvelgti į kraštutinumus.
Kaip ir vidurkis nėra išsamus vieno kintamojo apibūdinimas, linijinė regresija nėra išsamus kintamųjų ryšių aprašymas. Šią problemą galite išspręsti naudodami kvantilinę regresiją.
Linijinė regresija yra jautri pašaliniams
Išskirtiniai yra stebinantys duomenys. Išskirtiniai gali būti vienmačiai (pagrįsti vienu kintamuoju) arba daugialypiai. Jei žiūrėtumėte į amžių ir pajamas, vienkartiniai pašaliniai rodikliai būtų tokie, kaip asmuo, kuriam yra 118 metų, arba tas, kuris pernai uždirbo 12 mln. Daugialypis pokytis būtų 18-metis, uždirbęs 200 000 USD. Šiuo atveju nei amžius, nei pajamos nėra labai ekstremalios, tačiau labai mažai 18 metų žmonių uždirba tiek pinigų.
Neigiami rezultatai gali turėti didžiulį poveikį regresijai. Norėdami išspręsti šią problemą, paprašykite statistikos programinės įrangos įtakos statistikos.
Duomenys turi būti nepriklausomi
Tiesinė regresija daro prielaidą, kad duomenys yra nepriklausomi. Tai reiškia, kad vieno dalyko (pvz., Asmens) balai neturi nieko bendra su kito. Tai dažnai, bet ne visada, yra protinga. Du įprasti atvejai, kai nėra prasmės, yra susitelkę erdvėje ir laike.
Klasikinis grupavimo kosmose pavyzdys yra mokinių testų rezultatai, kai turite mokinių iš įvairių klasių, klasių, mokyklų ir mokyklų rajonų. Tos pačios klasės mokiniai dažniausiai būna panašūs daugeliu atžvilgių, t.y., jie dažnai kilę iš tų pačių apylinkių, turi tuos pačius mokytojus ir t. Taigi jie nėra nepriklausomi.
Laiko grupių pavyzdžiai yra bet kokie tyrimai, kuriuose tuos pačius dalykus matuojate kelis kartus. Pavyzdžiui, tyrinėdami dietą ir svorį, galite kelis kartus matuoti kiekvieną asmenį. Šie duomenys nėra nepriklausomi, nes tai, ką žmogus sveria vieną kartą, yra susijęs su tuo, ką jis sveria kitomis progomis. Vienas iš būdų tai išspręsti yra daugiapakopiai modeliai.