Lineaire regressie is een statistische methode voor het onderzoeken van de relatie tussen een afhankelijke variabele, aangeduid als ja, en een of meer onafhankelijke variabelen, aangeduid als X. De afhankelijke variabele moet continu zijn, in die zin dat hij elke waarde kan aannemen, of op zijn minst in de buurt van continu. De onafhankelijke variabelen kunnen van elk type zijn. Hoewel lineaire regressie op zichzelf geen oorzakelijk verband kan aantonen, wordt de afhankelijke variabele meestal beïnvloed door de onafhankelijke variabelen.
Lineaire regressie is beperkt tot lineaire relaties
Door zijn aard kijkt lineaire regressie alleen naar lineaire relaties tussen afhankelijke en onafhankelijke variabelen. Dat wil zeggen, het veronderstelt dat er een rechtlijnige relatie tussen hen is. Soms is dit onjuist. De relatie tussen inkomen en leeftijd is bijvoorbeeld gekromd, d.w.z. het inkomen neigt te stijgen in het begin van de volwassenheid, af te vlakken in de latere volwassenheid en te dalen nadat mensen met pensioen gaan. U kunt zien of dit een probleem is door te kijken naar grafische weergaven van de relaties.
Lineaire regressie kijkt alleen naar het gemiddelde van de afhankelijke variabele
Lineaire regressie kijkt naar een relatie tussen het gemiddelde van de afhankelijke variabele en de onafhankelijke variabelen. Als u bijvoorbeeld kijkt naar de relatie tussen het geboortegewicht van baby's en de moeder, kenmerken zoals leeftijd, lineaire regressie zal kijken naar het gemiddelde gewicht van baby's van moeders van verschillende leeftijden. Soms moet u echter naar de uitersten van de afhankelijke variabele kijken, bijvoorbeeld baby's lopen risico als hun gewicht laag is, dus u zou in dit voorbeeld naar de uitersten willen kijken.
Net zoals het gemiddelde geen volledige beschrijving is van een enkele variabele, is lineaire regressie geen volledige beschrijving van relaties tussen variabelen. U kunt dit probleem oplossen door kwantielregressie te gebruiken.
Lineaire regressie is gevoelig voor uitschieters
Uitbijters zijn gegevens die verrassend zijn. Uitschieters kunnen univariaat (gebaseerd op één variabele) of multivariaat zijn. Als je kijkt naar leeftijd en inkomen, zijn univariate uitschieters zaken als iemand die 118 jaar oud is, of iemand die vorig jaar 12 miljoen dollar verdiende. Een multivariate uitbijter zou een 18-jarige zijn die $ 200.000 verdiende. In dit geval is noch de leeftijd, noch het inkomen erg extreem, maar maar heel weinig 18-jarigen verdienen zoveel geld.
Uitbijters kunnen grote effecten hebben op de regressie. U kunt dit probleem oplossen door invloedsstatistieken op te vragen bij uw statistische software.
Gegevens moeten onafhankelijk zijn
Lineaire regressie gaat ervan uit dat de gegevens onafhankelijk zijn. Dat betekent dat de scores van het ene onderwerp (zoals een persoon) niets te maken hebben met die van een ander. Dit is vaak, maar niet altijd, verstandig. Twee veelvoorkomende gevallen waarin het geen zin heeft, zijn clustering in ruimte en tijd.
Een klassiek voorbeeld van clustering in de ruimte zijn testscores van studenten, wanneer je studenten hebt uit verschillende klassen, klassen, scholen en schooldistricten. Leerlingen in dezelfde klas lijken in veel opzichten op elkaar, d.w.z. ze komen vaak uit dezelfde buurt, hebben dezelfde leraren, enz. Ze zijn dus niet onafhankelijk.
Voorbeelden van clustering in de tijd zijn onderzoeken waarbij je dezelfde onderwerpen meerdere keren meet. In een onderzoek naar voeding en gewicht zou u bijvoorbeeld elke persoon meerdere keren kunnen meten. Deze gegevens zijn niet onafhankelijk omdat wat een persoon de ene keer weegt, gerelateerd is aan wat hij of zij een andere keer weegt. Een manier om hiermee om te gaan is met modellen met meerdere niveaus.