Недоліки лінійної регресії

Лінійна регресія - це статистичний метод дослідження взаємозв'язку між залежною змінною, що позначається як y, та одну або кілька незалежних змінних, позначених як х. Залежна змінна повинна бути безперервною, оскільки вона може приймати будь-яке значення, або принаймні близькою до безперервної. Незалежні змінні можуть бути будь-якого типу. Хоча лінійна регресія не може показати причинно-наслідковий зв'язок сама по собі, на залежну змінну зазвичай впливають незалежні змінні.

Лінійна регресія обмежується лінійними відносинами

За своєю природою лінійна регресія розглядає лише лінійні залежності між залежними та незалежними змінними. Тобто, передбачається, що між ними існує прямий зв’язок. Іноді це неправильно. Наприклад, залежність між доходом та віком крива, тобто дохід, як правило, зростає на ранніх стадіях дорослості, згладжується в пізньому зрілому віці та зменшується після виходу людей на пенсію. Ви можете визначити, чи це проблема, переглянувши графічні зображення відносин.

Лінійна регресія розглядає лише середнє значення залежної змінної

Лінійна регресія розглядає взаємозв'язок між середнім значенням залежної змінної та незалежними змінними. Наприклад, якщо розглянути зв’язок між вагою новонароджених немовлят та матір’ю такі характеристики, як вік, лінійна регресія будуть розглядати середню вагу немовлят, народжених від матерів різного віку. Однак іноді вам потрібно дивитись на крайні показники залежної змінної, наприклад, немовлята перебувають у групі ризику, коли їх вага низький, тому ви хотіли б поглянути на крайні значення в цьому прикладі.

Подібно до того, як середнє значення не є повним описом однієї змінної, лінійна регресія не є повним описом взаємозв’язків між змінними. Ви можете впоратися з цією проблемою, використовуючи квантильну регресію.

Лінійна регресія чутлива до викидів

Викиди - це дані, які дивують. Викиди можуть бути одноваріантними (на основі однієї змінної) або багатоваріантними. Якщо ви дивитесь на вік та доходи, однозначними випадаючими будуть такі речі, як людина, якій 118 років, або людина, яка заробила 12 мільйонів доларів минулого року. Багатофакторним вибіжником був би 18-річний юнак, який заробив 200 000 доларів. У цьому випадку ні вік, ні доходи не є надто екстремальними, але дуже мало 18-річних людей заробляють стільки грошей.

Викиди можуть мати величезний вплив на регресію. Ви можете вирішити цю проблему, запитуючи статистичні дані впливу у свого статистичного програмного забезпечення.

Дані повинні бути незалежними

Лінійна регресія припускає, що дані незалежні. Це означає, що бали одного предмета (наприклад, особи) не мають нічого спільного з результатами іншого. Це часто, але не завжди, розумно. Два поширені випадки, коли це не має сенсу, - це кластеризація в просторі та часі.

Класичним прикладом кластеризації в просторі є результати тестування учнів, коли у вас є учні з різних класів, класів, шкіл та шкільних округів. Учні одного класу, як правило, багато в чому схожі, тобто вони часто походять з одного району, у них однакові викладачі тощо. Таким чином, вони не є незалежними.

Прикладами кластеризації в часі є будь-які дослідження, коли ви вимірюєте одні і ті ж предмети кілька разів. Наприклад, під час вивчення дієти та ваги ви можете вимірювати кожну людину кілька разів. Ці дані не є незалежними, оскільки те, що важить людина в одному випадку, пов’язане з тим, що вона важить в інших випадках. Один із способів вирішити це - багаторівневі моделі.

  • Поділитися
instagram viewer