Um outlier é um valor em um conjunto de dados que está longe dos outros valores. Outliers podem ser causados por erros experimentais ou de medição, ou por uma população de cauda longa. Nos primeiros casos, pode ser desejável identificar outliers e removê-los dos dados antes de realizar um análise estatística, porque podem confundir os resultados de modo que não representem com precisão a amostra população. A maneira mais simples de identificar outliers é com o método quartil.
Classifique os dados em ordem crescente. Por exemplo, pegue o conjunto de dados {4, 5, 2, 3, 15, 3, 3, 5}. Classificado, o conjunto de dados de exemplo é {2, 3, 3, 3, 4, 5, 5, 15}.
Encontre a mediana. Este é o número em que metade dos pontos de dados é maior e a outra metade menor. Se houver um número par de pontos de dados, a média dos dois do meio será calculada. Para o conjunto de dados de exemplo, os pontos médios são 3 e 4, então a mediana é (3 + 4) / 2 = 3,5.
Encontre o quartil superior, Q2; este é o ponto de dados em que 25% dos dados são maiores. Se o conjunto de dados for uniforme, calcule a média de 2 pontos em torno do quartil. Para o conjunto de dados de exemplo, é (5 + 5) / 2 = 5.
Encontre o quartil inferior, Q1; este é o ponto de dados em que 25 por cento dos dados são menores. Se o conjunto de dados for uniforme, calcule a média de 2 pontos em torno do quartil. Para os dados de exemplo, (3 + 3) / 2 = 3.
Subtraia o quartil inferior do quartil superior para obter o intervalo interquartil, IQ. Para o conjunto de dados de exemplo, Q2 - Q1 = 5 - 3 = 2.
Multiplique o intervalo interquartil por 1,5. Adicione isso ao quartil superior e subtraia do quartil inferior. Qualquer ponto de dados fora desses valores é um outlier moderado. Para o conjunto de exemplos, 1,5 x 2 = 3; assim, 3 - 3 = 0 e 5 + 3 = 8. Portanto, qualquer valor menor que 0 ou maior que 8 seria um outlier moderado. Isso significa que 15 é qualificado como um outlier leve.
Multiplique o intervalo interquartil por 3. Adicione isso ao quartil superior e subtraia do quartil inferior. Qualquer ponto de dados fora desses valores é um outlier extremo. Para o conjunto de exemplos, 3 x 2 = 6; assim, 3 - 6 = –3 e 5 + 6 = 11. Portanto, qualquer valor menor que –3 ou maior que 11 seria um valor extremo. Isso significa que 15 é qualificado como um valor discrepante extremo.