En outlier er en værdi i et datasæt, der er langt fra de andre værdier. Outliers kan være forårsaget af eksperimentelle eller målefejl eller af en langhalet population. I de tidligere tilfælde kan det være ønskeligt at identificere afvigende og fjerne dem fra data, før du udfører en statistisk analyse, fordi de kan kaste resultaterne væk, så de ikke nøjagtigt repræsenterer prøven befolkning. Den enkleste måde at identificere outliers på er med kvartilmetoden.
Sorter dataene i stigende rækkefølge. Tag f.eks. Datasættet {4, 5, 2, 3, 15, 3, 3, 5}. Sorteret, eksemplets datasæt er {2, 3, 3, 3, 4, 5, 5, 15}.
Find medianen. Dette er antallet, hvor halvdelen af datapunkterne er større, og halvdelen er mindre. Hvis der er et lige antal datapunkter, beregnes de midterste to i gennemsnit. For eksemplets datasæt er midtpunkterne 3 og 4, så medianen er (3 + 4) / 2 = 3,5.
Find den øverste kvartil, Q2; dette er datapunktet, hvor 25 procent af dataene er større. Hvis datasættet er jævnt, skal du gennemsnitliggøre de 2 point omkring kvartilen. For datasættet eksempel er dette (5 + 5) / 2 = 5.
Find den nedre kvartil, Q1; dette er datapunktet, hvor 25 procent af dataene er mindre. Hvis datasættet er jævnt, skal du gennemsnitliggøre de 2 point omkring kvartilen. For eksempeldataene (3 + 3) / 2 = 3.
Træk det nedre kvartil fra det højere kvartil for at få interkvartilområdet, IQ. For datasættet eksempel er Q2 - Q1 = 5 - 3 = 2.
Multiplicer interkvartilområdet med 1,5. Tilføj dette til det øverste kvartil og træk det fra det nederste kvartil. Ethvert datapunkt uden for disse værdier er en mild outlier. For eksempelsættet er 1,5 x 2 = 3; således 3 - 3 = 0 og 5 + 3 = 8. Så enhver værdi mindre end 0 eller større end 8 ville være en mild outlier. Dette betyder, at 15 kvalificerer sig som en mild outlier.
Multiplicer interkvartilområdet med 3. Tilføj dette til det øverste kvartil og træk det fra det nederste kvartil. Ethvert datapunkt uden for disse værdier er en ekstrem outlier. For eksempelsættet er 3 x 2 = 6; således 3 - 6 = –3 og 5 + 6 = 11. Så enhver værdi mindre end –3 eller større end 11 ville være en ekstrem outlier. Dette betyder, at 15 kvalificerer sig som en ekstrem outlier.