Hvordan tolke en scatterplot

Et spredningsdiagram er et viktig diagnostisk verktøy i en statistikeres arsenal, oppnådd ved å tegne to variabler mot hverandre. Det gjør det mulig for statistikeren å øye på variablene og danne en arbeidshypotese om deres forhold. Av denne grunn tegnes det vanligvis før en regresjonsanalyse blir utført. Statistikeren tester deretter hypotesen ved hjelp av en regresjonsanalyse og bestemmer tegnet og den nøyaktige størrelsen på forholdet. Videre hjelper et spredningsdiagram med å identifisere avvikere - verdier som er unormalt fjernt fra de fleste dataene i utvalget. Eliminering av avvikere bidrar til å forbedre regresjonsmodellen.

Se etter negativt forhold mellom de to variablene i spredningsdiagrammet. Hvis lave verdier for den første variabelen tilsvarer høye verdier for den andre variabelen, er det en negativ korrelasjon. I dette tilfellet har en linje trukket gjennom datapunktene en negativ helling.

Undersøk spredningsdiagrammet for positivt forhold mellom variablene. Hvis lave verdier for den første variabelen i spredningsdiagrammet tilsvarer lave verdier for den andre og den høye verdiene til den første tilsvarer tilsvarende de høye verdiene til den andre, har variablene en positiv sammenheng. I dette tilfellet har en linje trukket gjennom datapunktene en positiv skråning.

Undersøk spredningsdiagrammet for ikke noe forhold mellom variablene. Hvis datapunktene i spredningsdiagrammet fordeles tilfeldig uten noe tilsynelatende forhold mellom de to, har de enten ingen korrelasjon eller liten, statistisk ubetydelig korrelasjon. I dette tilfellet er en linje trukket gjennom datapunktene vannrett med skråningen lik null.

Plasser en linje gjennom datapunktene og undersøk formen for å måle arten av forholdet mellom de to variablene. En rett linje tolkes som et lineært forhold, en buet form antyder et kvadratisk forhold, og en linjen som ligger relativt flat før den plutselig skyter opp eller ned tolkes som et eksponentielt forhold.

Undersøk spredningsdiagrammet for avvikere, verdier som ligger unormalt langt fra klyngen av datapunkter. Outliers forvrenger forholdet mellom variablene. Eliminer dem, men bare hvis fraværet ikke påvirker analysen av forholdet mellom de to variablene.

  • Dele
instagram viewer