数学的には、「平均」は平均です。 平均は、データセットを意味のある形で表すために計算されます。 たとえば、気象学者は、過去のデータに基づいて、シカゴの1月22日の平均気温が華氏25度であると言うことができます。 この数値は、シカゴでの次の1月22日の正確な気温を予測することはできませんが、その日にシカゴに行く場合はジャケットを梱包する必要があることを十分に理解できます。 一般的に使用される2つの平均は、算術平均と幾何平均です。 データにどちらを使用するかを知ることは、それらの違いを理解することを意味します。
計算式
データセットの算術平均と幾何平均の最も明らかな違いは、それらの計算方法です。 算術平均は、データセット内のすべての数値を合計し、その結果をデータポイントの総数で割ることによって計算されます。
例:11、13、17、および1,000の算術平均=(11 + 13 + 17 + 1,000)/ 4 = 260.25
データセットの幾何平均は、データセット内の数値を乗算し、結果のn乗根を取ることによって計算されます。ここで、「n」はセット内のデータポイントの総数です。
例:11、13、17、および1,000の幾何平均=(11 x 13 x 17 x 1,000)の4乗根= 39.5
外れ値の影響
算術平均と幾何平均の計算結果を見ると、外れ値の影響が幾何平均で大幅に減衰していることがわかります。 これは何を意味するのでしょうか? 11、13、17、および1,000のデータセットでは、1,000という数値は、他のすべての値よりもはるかに高いため、「外れ値」と呼ばれます。 算術平均を計算すると、結果は260.25になります。 データセット内の260.25に近い数値はないため、この場合、算術平均は代表的ではないことに注意してください。 外れ値の効果は誇張されています。 39.5の幾何平均は、データセットのほとんどの数値が0から50の範囲内にあることを示すのに適しています。
用途
統計学者は、算術平均を使用して、有意な外れ値のないデータを表します。 このタイプの平均は、シカゴの1月22日のすべての気温が華氏-50度から50度の間になるため、平均気温を表すのに適しています。 10,000°Fの温度は発生しません。 打率や平均レースカー速度なども、算術平均を使用して適切に表されます。
幾何平均は、データポイント間の差が対数であるか、10の倍数で変化する場合に使用されます。 生物学者は幾何平均を使用して細菌集団のサイズを記述します。これは、ある日は20の生物、次の日は20,000の生物になる可能性があります。 経済学者は、幾何平均を使用して所得分布を記述することができます。 あなたとあなたの隣人のほとんどは年間約65,000ドルを稼ぐかもしれませんが、丘の上にいる男が年間6,500万ドルを稼ぐとしたらどうでしょうか? 近所の収入の算術平均はここでは誤解を招く可能性があるため、幾何平均の方が適しています。