外れ値は、他の値から遠く離れたデータセット内の値です。 外れ値は、実験エラーまたは測定エラー、あるいはロングテールの母集団によって引き起こされる可能性があります。 前者の場合、実行する前に外れ値を特定してデータから削除することが望ましい場合があります。 統計分析。サンプルを正確に表さないように結果を破棄する可能性があるためです。 人口。 外れ値を特定する最も簡単な方法は、四分位数を使用することです。
データを昇順で並べ替えます。 たとえば、データセット{4、5、2、3、15、3、3、5}を取り上げます。 並べ替えると、データセットの例は{2、3、3、3、4、5、5、15}です。
中央値を見つける. これは、データポイントの半分が大きく、半分が小さい数です。 データポイントが偶数の場合、真ん中の2つが平均化されます。 サンプルデータセットの場合、中間点は3と4であるため、中央値は(3 + 4)/ 2 = 3.5です。
上位四分位数、Q2を見つけます。 これは、データの25%が大きくなるデータポイントです。 データセットが偶数の場合、四分位数の周りの2ポイントを平均します。 サンプルデータセットの場合、これは(5 + 5)/ 2 = 5です。
下位四分位数Q1を見つけます。 これは、データの25%が小さくなるデータポイントです。 データセットが偶数の場合、四分位数の周りの2ポイントを平均します。 サンプルデータの場合、(3 + 3)/ 2 = 3です。
上位四分位数から下位四分位数を減算して、四分位範囲IQを取得します。 サンプルデータセットの場合、Q2 – Q1 = 5 – 3 = 2です。
四分位範囲に1.5を掛けます。 これを上位四分位数に加算し、下位四分位数から減算します。 これらの値の外側にあるデータポイントは、軽度の外れ値です。 サンプルセットの場合、1.5 x 2 = 3; したがって、3 – 3 = 0および5+ 3 = 8です。 したがって、0未満または8より大きい値は、軽度の外れ値になります。 これは、15が軽度の外れ値として適格であることを意味します。
四分位範囲に3を掛けます。 これを上位四分位数に加算し、下位四分位数から減算します。 これらの値の外側にあるデータポイントは、極端な外れ値です。 サンプルセットの場合、3 x 2 = 6; したがって、3 – 6 = –3および5 + 6 = 11です。 したがって、–3未満または11より大きい値は、極端な外れ値になります。 これは、15が極端な外れ値として適格であることを意味します。