Dalam statistik, distribusi Gaussian, atau normal, digunakan untuk mengkarakterisasi sistem yang kompleks dengan banyak faktor. Seperti yang dijelaskan dalam The History of Statistics karya Stephen Stigler, Abraham De Moivre menemukan distribusi yang menyandang nama Karl Fredrick Gauss. Kontribusi Gauss terletak pada penerapan distribusi ke pendekatan kuadrat terkecil untuk meminimalkan kesalahan dalam memasang data dengan garis yang paling sesuai. Dia dengan demikian menjadikannya distribusi kesalahan yang paling penting dalam statistik.
Motivasi
Bagaimana distribusi sampel data? Bagaimana jika Anda tidak mengetahui distribusi data yang mendasarinya? Apakah ada cara untuk menguji hipotesis tentang data tanpa mengetahui distribusi yang mendasarinya? Berkat Teorema Limit Pusat, jawabannya adalah ya.
Pernyataan Teorema
Ini menyatakan bahwa mean sampel dari populasi tak hingga mendekati normal, atau Gaussian, dengan mean with sama dengan populasi yang mendasarinya, dan varians sama dengan varians populasi dibagi dengan sampel ukuran. Aproksimasi meningkat ketika ukuran sampel menjadi besar.
Pernyataan aproksimasi terkadang salah saji sebagai kesimpulan tentang konvergensi ke distribusi normal. Karena perkiraan distribusi normal berubah seiring bertambahnya ukuran sampel, pernyataan seperti itu menyesatkan.
Teorema ini dikembangkan oleh Pierre Simon Laplace.
Mengapa Ada Dimana-mana
Distribusi normal ada di mana-mana. Alasannya berasal dari Teorema Limit Pusat. Seringkali, ketika suatu nilai diukur, itu adalah jumlah efek dari banyak variabel independen. Oleh karena itu, nilai yang diukur itu sendiri memiliki kualitas sampel-mean untuk itu. Misalnya, distribusi penampilan atlet mungkin berbentuk lonceng, sebagai akibat dari perbedaan dalam diet, pelatihan, genetika, pembinaan, dan psikologi. Bahkan tinggi badan pria memiliki distribusi normal, yang merupakan fungsi dari banyak faktor biologis.
Kopula Gaussian
Apa yang disebut "fungsi kopula" dengan distribusi Gaussian menjadi berita pada tahun 2009 karena penggunaannya dalam menilai risiko investasi pada obligasi yang dijaminkan. Penyalahgunaan fungsi tersebut berperan penting dalam krisis keuangan 2008-2009. Meskipun ada banyak penyebab krisis, di belakang distribusi Gaussian sepertinya seharusnya tidak digunakan. Sebuah fungsi dengan ekor yang lebih tebal akan memberikan probabilitas yang lebih besar untuk kejadian yang merugikan.
Penurunan
Teorema Limit Pusat dapat dibuktikan dalam banyak baris dengan menganalisis fungsi pembangkit momen (mgf) dari (contoh mean - mean populasi)/?(varians populasi / ukuran sampel) sebagai fungsi mgf dari populasi yang mendasarinya. Bagian aproksimasi dari teorema diperkenalkan dengan memperluas mgf populasi yang mendasarinya sebagai deret pangkat, kemudian menunjukkan sebagian besar suku tidak signifikan karena ukuran sampel menjadi besar.
Hal ini dapat dibuktikan pada garis yang jauh lebih sedikit dengan menggunakan ekspansi Taylor pada persamaan karakteristik dari fungsi yang sama dan membuat ukuran sampel menjadi besar.
Kenyamanan Komputasi
Beberapa model statistik menganggap kesalahan menjadi Gaussian. Hal ini memungkinkan distribusi fungsi variabel normal, seperti distribusi chi-kuadrat dan F, untuk digunakan dalam pengujian hipotesis. Secara khusus, dalam uji-F, statistik F terdiri dari rasio distribusi chi-kuadrat, yang merupakan fungsi dari parameter varians normal. Rasio keduanya menyebabkan varians untuk membatalkan, memungkinkan pengujian hipotesis tanpa mengetahui varians selain dari normalitas dan keteguhannya.