四分位範囲は、IQRと略されることが多く、特定のデータセットの25パーセンタイルから75パーセンタイル、または中央の50パーセンタイルまでの範囲を表します。 四分位範囲を使用して、テストの平均パフォーマンス範囲を決定できます。これを使用して、 特定のテストでのほとんどの人のスコアが下がる場所、または会社の平均的な従業員がそれぞれにどれだけのお金を稼ぐかを決定する場所 月。 四分位範囲は、単一の数値ではなく分散範囲を識別できるため、データセットの平均または中央値よりも効果的なデータ分析ツールになります。
TL; DR(長すぎる; 読んでいない)
四分位範囲(IQR)は、データセットの中央の50パーセントを表します。 それを計算するには、最初にデータポイントを最小から最大の順に並べ、次に1番目と3番目の四分位数を決定します それぞれ式(N + 1)/ 4および3 *(N + 1)/ 4を使用して位置を決定します。ここで、Nはデータ内のポイントの数です。 セットする。 最後に、3番目の四分位数から最初の四分位数を引いて、データセットの四分位範囲を決定します。
注文データポイント
四分位範囲の計算は簡単な作業ですが、計算する前に、データセットのさまざまなポイントを配置する必要があります。 これを行うには、データポイントを最小から最大の順に並べることから始めます。 たとえば、データポイントが10、19、8、4、9、12、15、11、および20の場合、次のように並べ替えます。{4、8、9、10、11、12、15、19、 20}。 データポイントがこのように注文されたら、次のステップに進むことができます。
最初の四分位位置を決定する
次に、次の式を使用して最初の四分位数の位置を決定します。(N + 1)/ 4、ここでNはデータセット内のポイントの数です。 最初の四分位数が2つの数値の間にある場合は、2つの数値の平均を最初の四分位数スコアとして取ります。 上記の例では、9つのデータポイントがあるため、1を9に加算して10を取得し、4で除算して2.5を取得します。 以来 最初の四分位数が2番目と3番目の値の間にある場合、最初の四分位数の位置を取得するには、平均8と9を使用します。 8.5.
3番目の四分位位置を決定する
最初の四分位数を決定したら、次の式を使用して3番目の四分位数の位置を決定します。3*(N + 1)/ 4ここで、Nはデータセット内のポイントの数です。 同様に、3番目の四分位数が2つの数値の間にある場合は、最初の四分位数スコアを計算するときと同じように、単純に平均を取ります。 上記の例では、9つのデータポイントがあるため、1を9に加算して10を取得し、3を掛けて30を取得し、4で除算して7.5を取得します。 最初の四分位数は7番目と8番目の値の間にあるため、平均15と19を使用して、3番目の四分位数スコア17を取得します。
四分位範囲を計算する
1番目と3番目の四分位数を決定したら、3番目の四分位数の値から最初の四分位数の値を引くことによって四分位範囲を計算します。 この記事の過程で使用した例を終了するには、17から8.5を引いて、データセットの四分位範囲が8.5に等しいことを確認します。
IQRの長所と短所
四分位範囲には、データセットの両端の外れ値を識別して排除できるという利点があります。 IQRは、データ分布が歪んでいる場合の変動の優れた尺度でもあり、このIQRの計算方法は 累積度数分布を使用してデータを整理する限り、グループ化されたデータセットに対して機能します。 ポイント。 グループ化されたデータの四分位範囲の式は、グループ化されていないデータの場合と同じですが、IQRは、3番目の四分位数の値から最初の四分位数を引いた値に等しくなります。 ただし、標準偏差と比較していくつかの欠点があります。いくつかの極端なスコアに対する感度が低く、サンプリングの安定性が標準偏差ほど強くありません。