Un valore anomalo è un valore in un set di dati che è lontano dagli altri valori. I valori anomali possono essere causati da errori sperimentali o di misurazione o da una popolazione a coda lunga. Nei primi casi, può essere desiderabile identificare i valori anomali e rimuoverli dai dati prima di eseguire un analisi statistica, perché possono eliminare i risultati in modo che non rappresentino accuratamente il campione popolazione. Il modo più semplice per identificare gli outlier è con il metodo del quartile.
Ordina i dati in ordine crescente. Ad esempio, prendi il set di dati {4, 5, 2, 3, 15, 3, 3, 5}. Ordinato, il set di dati di esempio è {2, 3, 3, 3, 4, 5, 5, 15}.
Trova la mediana. Questo è il numero in cui metà dei punti dati sono più grandi e metà sono più piccoli. Se è presente un numero pari di punti dati, viene calcolata la media dei due centrali. Per il set di dati di esempio, i punti medi sono 3 e 4, quindi la mediana è (3 + 4) / 2 = 3,5.
Trova il quartile superiore, Q2; questo è il punto dati in cui il 25% dei dati è più grande. Se il set di dati è pari, media i 2 punti attorno al quartile. Per il set di dati di esempio, questo è (5 + 5) / 2 = 5.
Trova il quartile inferiore, Q1; questo è il punto dati in cui il 25% dei dati è più piccolo. Se il set di dati è pari, media i 2 punti attorno al quartile. Per i dati di esempio, (3 + 3) / 2 = 3.
Sottrai il quartile inferiore dal quartile superiore per ottenere l'intervallo interquartile, QI. Per il set di dati di esempio, Q2 – Q1 = 5 – 3 = 2.
Moltiplica l'intervallo interquartile per 1,5. Aggiungi questo al quartile superiore e sottrailo dal quartile inferiore. Qualsiasi punto dati al di fuori di questi valori è un lieve outlier. Per il set di esempio, 1,5 x 2 = 3; quindi 3 – 3 = 0 e 5 + 3 = 8. Quindi qualsiasi valore inferiore a 0 o maggiore di 8 sarebbe un leggero valore anomalo. Ciò significa che 15 si qualifica come un valore anomalo lieve.
Moltiplica l'intervallo interquartile per 3. Aggiungi questo al quartile superiore e sottrailo dal quartile inferiore. Qualsiasi punto dati al di fuori di questi valori è un valore anomalo estremo. Per il set di esempio, 3 x 2 = 6; quindi 3 – 6 = –3 e 5 + 6 = 11. Quindi qualsiasi valore inferiore a -3 o maggiore di 11 sarebbe un valore anomalo estremo. Ciò significa che 15 si qualifica come un valore anomalo estremo.