Como calcular valores discrepantes

Um outlier é um valor em um conjunto de dados que está longe dos outros valores. Outliers podem ser causados ​​por erros experimentais ou de medição, ou por uma população de cauda longa. Nos primeiros casos, pode ser desejável identificar outliers e removê-los dos dados antes de realizar um análise estatística, porque podem confundir os resultados de modo que não representem com precisão a amostra população. A maneira mais simples de identificar outliers é com o método quartil.

Classifique os dados em ordem crescente. Por exemplo, pegue o conjunto de dados {4, 5, 2, 3, 15, 3, 3, 5}. Classificado, o conjunto de dados de exemplo é {2, 3, 3, 3, 4, 5, 5, 15}.

Encontre a mediana. Este é o número em que metade dos pontos de dados é maior e a outra metade menor. Se houver um número par de pontos de dados, a média dos dois do meio será calculada. Para o conjunto de dados de exemplo, os pontos médios são 3 e 4, então a mediana é (3 + 4) / 2 = 3,5.

Encontre o quartil superior, Q2; este é o ponto de dados em que 25% dos dados são maiores. Se o conjunto de dados for uniforme, calcule a média de 2 pontos em torno do quartil. Para o conjunto de dados de exemplo, é (5 + 5) / 2 = 5.

Encontre o quartil inferior, Q1; este é o ponto de dados em que 25 por cento dos dados são menores. Se o conjunto de dados for uniforme, calcule a média de 2 pontos em torno do quartil. Para os dados de exemplo, (3 + 3) / 2 = 3.

Subtraia o quartil inferior do quartil superior para obter o intervalo interquartil, IQ. Para o conjunto de dados de exemplo, Q2 - Q1 = 5 - 3 = 2.

Multiplique o intervalo interquartil por 1,5. Adicione isso ao quartil superior e subtraia do quartil inferior. Qualquer ponto de dados fora desses valores é um outlier moderado. Para o conjunto de exemplos, 1,5 x 2 = 3; assim, 3 - 3 = 0 e 5 + 3 = 8. Portanto, qualquer valor menor que 0 ou maior que 8 seria um outlier moderado. Isso significa que 15 é qualificado como um outlier leve.

Multiplique o intervalo interquartil por 3. Adicione isso ao quartil superior e subtraia do quartil inferior. Qualquer ponto de dados fora desses valores é um outlier extremo. Para o conjunto de exemplos, 3 x 2 = 6; assim, 3 - 6 = –3 e 5 + 6 = 11. Portanto, qualquer valor menor que –3 ou maior que 11 seria um valor extremo. Isso significa que 15 é qualificado como um valor discrepante extremo.

  • Compartilhar
instagram viewer