統計では、ガウス分布または正規分布を使用して、多くの要因を持つ複雑なシステムを特徴付けます。 スティーブンスティグラーの統計史で説明されているように、アブラームドモアブルはカールフレドリックガウスの名前を冠したディストリビューションを発明しました。 ガウスの貢献は、データを最適な線で近似する際のエラーを最小限に抑えるための最小二乗アプローチへの分布の適用にありました。 したがって、彼はそれを統計における最も重要なエラー分布にしました。
動機
データのサンプルの分布は何ですか? データの基礎となる分布がわからない場合はどうなりますか? 基礎となる分布を知らずにデータに関する仮説を検定する方法はありますか? 中心極限定理のおかげで、答えはイエスです。
定理のステートメント
無限の母集団からのサンプル平均はほぼ正規分布、つまりガウス分布であり、平均値は 基礎となる母集団と同じであり、分散は母集団の分散をサンプルで割ったものに等しくなります サイズ。 サンプルサイズが大きくなると、近似は改善されます。
近似ステートメントは、正規分布への収束に関する結論として誤解されることがあります。 サンプルサイズが大きくなると、近似正規分布が変化するため、このような記述は誤解を招く可能性があります。
この定理は、ピエールシモンラプラスによって開発されました。
なぜそれがどこにでもある
正規分布は遍在しています。 その理由は中心極限定理に由来します。 多くの場合、値が測定されるとき、それは多くの独立変数の合計効果です。 したがって、測定される値自体には、サンプル平均の品質があります。 たとえば、水虫のパフォーマンスの分布は、食事療法、トレーニング、遺伝学、コーチング、心理学の違いの結果として、ベル型になる場合があります。 男性の身長でさえ、多くの生物学的要因の関数である正規分布を持っています。
ガウスコピュラ
ガウス分布のいわゆる「コピュラ関数」は、担保付債券への投資リスクの評価に使用されたため、2009年にニュースになりました。 この機能の誤用は、2008年から2009年の金融危機に貢献しました。 危機の原因はたくさんありましたが、後から考えると、ガウス分布を使用すべきではなかったでしょう。 テールが太い関数は、有害事象により高い確率を割り当てます。
導出
中心極限定理は、(サンプルのモーメント母関数(mgf)を分析することにより、多くの行で証明できます。 平均-母集団のmgfの関数としての母集団平均)/?(母分散/サンプルサイズ)。 定理の近似部分は、基礎となる母集団のmgfをべき級数として展開することによって導入され、サンプルサイズが大きくなるにつれて、ほとんどの項が重要でないことを示します。
同じ関数の特性方程式でテイラー展開を使用し、サンプルサイズを大きくすることで、はるかに少ない行で証明できます。
計算上の利便性
一部の統計モデルは、エラーがガウス分布であると推定します。 これにより、カイ2乗分布やF分布などの正規変数の関数の分布を、仮説検定で使用できるようになります。 具体的には、F検定では、F統計量は、それ自体が正規分散パラメーターの関数であるカイ2乗分布の比率で構成されます。 2つの比率により、分散が相殺され、正規性と不変性以外の分散についての知識がなくても仮説検定が可能になります。