Недостатъците на линейната регресия

Линейната регресия е статистически метод за изследване на връзката между зависима променлива, обозначена като у, и една или повече независими променливи, обозначени като х. Зависимата променлива трябва да бъде непрекъсната, тъй като може да приеме всяка стойност или поне близо до непрекъсната. Независимите променливи могат да бъдат от всякакъв тип. Въпреки че линейната регресия не може сама да покаже причинно-следствена връзка, зависимата променлива обикновено се влияе от независимите променливи.

Линейната регресия е ограничена до линейни връзки

По своята същност линейната регресия разглежда само линейни връзки между зависими и независими променливи. Тоест предполага се, че между тях има праволинейна връзка. Понякога това е неправилно. Например, връзката между доходите и възрастта е извита, т.е. доходът има тенденция да нараства в ранните части на зрялата възраст, да се изравнява в по-късна възраст и да намалява след пенсионирането на хората. Можете да разберете дали това е проблем, като разгледате графични изображения на връзките.

instagram story viewer

Линейната регресия разглежда само средната стойност на зависимата променлива

Линейната регресия разглежда връзката между средната стойност на зависимата променлива и независимите променливи. Например, ако разгледате връзката между теглото при раждане на бебета и майката характеристики като възраст, линейна регресия ще разглеждат средното тегло на бебетата, родени от майки на различни възрасти. Понякога обаче трябва да погледнете крайностите на зависимата променлива, например, бебетата са изложени на риск, когато теглото им е ниско, така че бихте искали да разгледате крайностите в този пример.

Точно както средната стойност не е пълно описание на единична променлива, линейната регресия не е пълно описание на връзките между променливите. Можете да се справите с този проблем, като използвате квантилна регресия.

Линейната регресия е чувствителна към отклоненията

Крайните стойности са данни, които са изненадващи. Отклоненията могат да бъдат едномерни (на базата на една променлива) или многовариантни. Ако разглеждате възрастта и доходите, едномерните отклонения ще бъдат неща като човек на 118 години или този, който е направил 12 милиона долара през миналата година. Мултивариантно отклонение ще бъде 18-годишно дете, което е направило 200 000 долара. В този случай нито възрастта, нито доходите са много екстремни, но много малко хора на 18 години правят толкова пари.

Отклоненията могат да имат огромни ефекти върху регресията. Можете да се справите с този проблем, като поискате статистически данни за влияние от вашия статистически софтуер.

Данните трябва да са независими

Линейната регресия приема, че данните са независими. Това означава, че партитурите на един субект (като човек) нямат нищо общо с тези на друг. Това често е, но не винаги, разумно. Два често срещани случая, когато няма смисъл, са групирането в пространството и времето.

Класически пример за групиране в космоса са резултатите от тестове на ученици, когато имате ученици от различни класове, класове, училища и училищни квартали. Учениците в един и същи клас са сходни по много начини, т.е.често идват от едни и същи квартали, имат едни и същи учители и т.н. По този начин те не са независими.

Примери за групиране във времето са всякакви проучвания, при които измервате едни и същи обекти няколко пъти. Например при изследване на диетата и теглото може да измервате всеки човек по няколко пъти. Тези данни не са независими, защото това, което човек тежи по един повод, е свързано с това, което тежи при други случаи. Един от начините да се справите с това са многостепенните модели.

Teachs.ru
  • Дял
instagram viewer