科学者、経済学者、統計学者が理論に基づいて予測を行い、実際のデータを収集する場合、予測値と測定値の間の変動を測定する方法が必要です。 これらは通常、平均二乗誤差(MSE)に依存します。これは、個々のデータポイントの変動の合計を二乗し、データポイントの数から2を引いたもので割ったものです。 データがグラフに表示されたら、縦軸のデータポイントの変動を合計してMSEを決定します。 x-yグラフでは、それがy値になります。
なぜバリエーションを二乗するのですか?
予測値と観測値の間の変動を乗算すると、2つの望ましい効果があります。 1つ目は、すべての値が正であることを確認することです。 1つ以上の値が負の場合、すべての値の合計が非現実的に小さくなり、予測値と観測値の間の実際の変動の表現が不十分になる可能性があります。 二乗の2番目の利点は、大きな差により多くの重みを与えることです。これにより、MSEの値が大きいほど、データの変動が大きいことを意味します。
サンプル計算ストックアルゴリズム
特定の株式の価格を毎日予測するアルゴリズムがあるとします。 月曜日の株価は5.50ドル、火曜日は6.00ドル、水曜日は6.00ドル、木曜日は7.50ドル、金曜日は8.00ドルと予測しています。 月曜日を1日目とすると、(1、5.50)、(2、6.00)、(3、6.00)、(4、7.50)、(5、8.00)のようなデータポイントのセットがあります。 実際の価格は次のとおりです。月曜日$ 4.75(1、4.75); 火曜日$ 5.35(2、5.35); 水曜日$ 6.25(3、6.25); 木曜日$ 7.25(4、7.25); 金曜日:8.50ドル(5、8.50)。
これらのポイントのy値間の変動は、それぞれ0.75、0.65、-0.25、0.25、および-0.50です。ここで、負の符号は、観測値よりも小さい予測値を示します。 MSEを計算するには、最初に各変動値を2乗します。これにより、マイナス記号が削除され、0.5625、0.4225、0.0625、0.0625、および0.25が得られます。 これらの値を合計すると1.36になり、測定数から2を引いた数(3)で割ると、MSEが得られます。これは0.45になります。
MSEとRMSE
MSEの値が小さいほど、予測結果と観測結果がより密接に一致していることを示し、MSEが0.0の場合は完全に一致していることを示します。 ただし、変動値は2乗されていることを覚えておくことが重要です。 データポイントと同じ単位の誤差測定が必要な場合、統計学者は二乗平均平方根誤差(RMSE)を取ります。 彼らは、平均二乗誤差の平方根を取ることによってこれを取得します。 上記の例では、RSMEは0.671または約67セントになります。