平均、最頻値、中央値を使用して中心値を計算することにより、数のセット、特に大きな数のセットの比較を簡素化します。 セットの範囲と標準偏差を使用して、データの変動性を調べます。
平均は、一連の数値の平均値を識別します。 たとえば、値20、24、25、36、25、22、23を含むデータセットについて考えてみます。
平均を見つけるには、次の式を使用します。平均は、データセット内の数値の合計をデータセット内の値の数で割ったものに等しくなります。 数学的に:
\ text {Mean} = \ frac {\ text {すべての用語の合計}} {\ text {セット内の用語または値の数}}
中央値は、一連の数値の中点または中間値を識別します。
番号を小さいものから大きいものの順に並べます。 値のセットの例を使用します:20、24、25、36、25、22、23。 順番に並べると、セットは20、22、23、24、25、25、36になります。
数値のセットに偶数の値がある場合は、2つの中心値の平均を計算します。 たとえば、数値のセットに値22、23、25、26が含まれているとします。 真ん中は23から25の間にあります。 23と25を追加すると、48になります。 48を2で割ると、中央値は24になります。
モードは、データセット内の最も一般的な1つまたは複数の値を識別します。 データによっては、1つ以上のモードがある場合と、モードがまったくない場合があります。
中央値を見つけるのと同じように、データセットを最小から最大の順に並べます。 サンプルセットでは、順序付けられた値は20、22、23、24、25、25、36になります。
値が繰り返されるとモードが発生します。 例のセットでは、値25が2回発生します。 他の数字は繰り返されません。 したがって、モードは値25です。
一部のデータセットでは、複数のモードが発生します。 データセット22、23、23、24、27、27、29には、23と27にそれぞれ1つずつ、合計2つのモードが含まれています。 他のデータセットには3つ以上のモードがある場合があり、3つ以上の数値を持つモードがある場合があります(23、23、 24、24、24、28、29:モードは24に等しい)、またはモードがまったくない場合があります(21、23、24、25、26、27、 29). このモードは、データセットの途中だけでなく、どこでも発生する可能性があります。
範囲は、データセットの最小値と最大値の間の数学的距離を示します。 範囲は、データセットの変動性を測定します。 範囲が広いということは、データの変動が大きいこと、またはデータの残りの部分から遠く離れた単一の外れ値を示している可能性があります。 外れ値は、データ分析に影響を与えるのに十分な平均値を歪める、またはシフトする可能性があります。
サンプルセットでは、36の高いデータ値が前の値25を11だけ上回っています。 セット内の他の値を考えると、この値は極端に見えます。 36の値は、外れ値のデータポイントである可能性があります。
標準偏差は、データセットの変動性を測定します。 範囲と同様に、標準偏差が小さいほど変動が少ないことを示します。
標準偏差を見つけるには、各データポイント間の差の2乗と平均[∑(バツ − µ)2]、すべての二乗を加算し、その合計を値の数より1少ない数で除算します(N− 1)、そして最後に被除数の平方根を計算します。 1つの式では、これは次のとおりです。
すべてのデータポイント値を加算し、データポイントの数で割って平均を計算します。 サンプルデータセットでは、
合計175をデータポイントの数7で除算するか、
次に、各データポイントから平均を減算し、各差を2乗します。 式は次のようになります。
ここで、∑は合計を意味します。バツ私 各データセット値を表し、µ平均値を表します。 例のセットを続けると、値は次のようになります。
20-25 = -5 \ text {および} -5 ^ 2 = 25 \\ 24-25 = -1 \ text {および} -1 ^ 2 = 1 \\ 25-25 = 0 \ text {および} 0 ^ 2 = 0 \\ 36-25 = 11 \ text {および} 11 ^ 2 = 121 \\ 25-25 = 0 \ text {および} 0 ^ 2 = 0 \\ 22-25 = -3 \ text {および} -3 ^ 2 = 9 \\ 23- 25 = -2 \ text {および} -2^2=4
差の2乗の合計を、データポイントの数より1少ない数で割ります。 サンプルデータセットには7つの値があるため、N−1は7− 1 = 6に等しい。 差の2乗の合計160を6で割ると、約26.6667になります。
による除算の平方根を見つけることにより、標準偏差を計算します。N− 1. この例では、26.6667の平方根は約5.164に等しくなります。 したがって、標準偏差は約5.164になります。
標準偏差はデータの評価に役立ちます。 平均の1標準偏差内にあるデータセット内の数値は、データセットの一部です。 2つの標準偏差の範囲外の数値は、極値または外れ値です。 例のセットでは、値36は平均から2標準偏差を超えているため、36は外れ値です。 外れ値は、誤ったデータを表している場合や、予期しない状況を示唆している場合があるため、データを解釈する際には慎重に検討する必要があります。