Ein Ausreißer ist ein Wert in einem Datensatz, der weit von den anderen Werten entfernt ist. Ausreißer können durch Versuchs- oder Messfehler oder durch eine Long-Tail-Population verursacht werden. In den ersteren Fällen kann es wünschenswert sein, Ausreißer zu identifizieren und aus den Daten zu entfernen, bevor eine statistische Analyse, weil sie die Ergebnisse verfälschen können, so dass sie die Probe nicht genau darstellen Population. Ausreißer lassen sich am einfachsten mit der Quartil-Methode identifizieren.
Sortieren Sie die Daten in aufsteigender Reihenfolge. Nehmen Sie zum Beispiel den Datensatz {4, 5, 2, 3, 15, 3, 3, 5}. Sortiert ist der Beispieldatensatz {2, 3, 3, 3, 4, 5, 5, 15}.
Finden Sie den Mittelwert. Dies ist die Zahl, bei der die Hälfte der Datenpunkte größer und die andere Hälfte kleiner ist. Bei einer geraden Anzahl von Datenpunkten werden die mittleren beiden gemittelt. Für den Beispieldatensatz sind die Mittelpunkte 3 und 4, der Median ist also (3 + 4) / 2 = 3,5.
Finden Sie das obere Quartil, Q2; Dies ist der Datenpunkt, an dem 25 Prozent der Daten größer sind. Wenn der Datensatz gerade ist, mitteln Sie die 2 Punkte um das Quartil herum. Für den Beispieldatensatz ist dies (5 + 5) / 2 = 5.
Finden Sie das untere Quartil, Q1; Dies ist der Datenpunkt, an dem 25 Prozent der Daten kleiner sind. Wenn der Datensatz gerade ist, mitteln Sie die 2 Punkte um das Quartil herum. Für die Beispieldaten (3 + 3) / 2 = 3.
Subtrahiere das untere Quartil vom höheren Quartil, um den Interquartilabstand, IQ, zu erhalten. Für den Beispieldatensatz Q2 – Q1 = 5 – 3 = 2.
Multiplizieren Sie den Interquartilabstand mit 1,5. Addiere dies zum oberen Quartil und subtrahiere es vom unteren Quartil. Jeder Datenpunkt außerhalb dieser Werte ist ein leichter Ausreißer. Für den Beispielsatz 1,5 x 2 = 3; also 3 – 3 = 0 und 5 + 3 = 8. Jeder Wert kleiner als 0 oder größer als 8 wäre also ein leichter Ausreißer. Dies bedeutet, dass 15 als leichter Ausreißer zu qualifizieren ist.
Multiplizieren Sie den Interquartilabstand mit 3. Addiere dies zum oberen Quartil und subtrahiere es vom unteren Quartil. Jeder Datenpunkt außerhalb dieser Werte ist ein extremer Ausreißer. Für den Beispielsatz 3 x 2 = 6; also 3 – 6 = –3 und 5 + 6 = 11. Jeder Wert kleiner als –3 oder größer als 11 wäre also ein extremer Ausreißer. Das bedeutet, dass 15 als extremer Ausreißer zu qualifizieren ist.