Et spredningsdiagram er et vigtigt diagnostisk værktøj i en statistikers arsenal, opnået ved at tegne to variabler mod hinanden. Det giver statistikeren mulighed for at øje variablerne og danne en arbejdshypotese om deres forhold. Af denne grund tegnes det normalt inden en regressionsanalyse udføres. Statistikeren afprøver derefter hypotesen ved hjælp af en regressionsanalyse og bestemmer tegnets og den nøjagtige størrelse af forholdet. Desuden hjælper et spredningsdiagram med at identificere outliers - værdier, der er unormalt fjerne fra de fleste data i prøven. Fjernelse af outliers hjælper med at forbedre regressionsmodellen.
Kontroller for negativt forhold mellem de to variabler i spredningsdiagrammet. Hvis lave værdier for den første variabel svarer til høje værdier for den anden variabel, er der en negativ sammenhæng. I dette tilfælde har en linje trukket gennem datapunkterne en negativ hældning.
Undersøg spredningsdiagrammet for et positivt forhold mellem variablerne. Hvis lave værdier for den første variabel i spredningsdiagrammet svarer til lave værdier for den anden og den høje værdier af den første svarer ligeledes til de høje værdier for den anden, variablerne har en positiv sammenhæng. I dette tilfælde har en linje trukket gennem datapunkterne en positiv hældning.
Undersøg spredningsdiagrammet for intet forhold mellem variablerne. Hvis datapunkterne i spredningsdiagrammet fordeles tilfældigt uden nogen tilsyneladende sammenhæng mellem de to, har de enten ingen sammenhæng eller en lille, statistisk ubetydelig sammenhæng. I dette tilfælde er en linje trukket gennem datapunkterne vandret med hældning lig med nul.
Tilpas en linje gennem datapunkterne og undersøge dens form for at måle arten af forholdet mellem de to variabler. En lige linje fortolkes som et lineært forhold, en buet form antyder et kvadratisk forhold og en en linje, der ligger relativt flad, før den pludselig skyder op eller ned, fortolkes som et eksponentielt forhold.
Undersøg spredningsdiagrammet for outliers, værdier, der ligger unormalt langt fra klyngen af datapunkter. Outliers fordrejer forholdet mellem variablerne. Fjern dem, men kun hvis deres fravær ikke påvirker analysen af forholdet mellem de to variabler.