U statistici se Gaussova, ili normalna distribucija koristi za karakterizaciju složenih sustava s mnogim čimbenicima. Kao što je opisano u Povijesti statistike Stephena Stiglera, Abraham De Moivre izumio je distribuciju koja nosi ime Karla Fredricka Gaussa. Gaussov doprinos ležao je u njegovoj primjeni pristupa raspodjele na najmanje kvadrate kako bi se smanjila pogreška u uklapanju podataka linijom koja najbolje odgovara. Stoga je to učinio najvažnijom distribucijom pogrešaka u statistici.
Motivacija
Kakva je distribucija uzorka podataka? Što ako ne znate osnovnu distribuciju podataka? Postoji li način za testiranje hipoteza o podacima bez poznavanja osnovne distribucije? Zahvaljujući centralnom graničnom teoremu, odgovor je da.
Izjava o teoremu
U njemu se navodi da je uzorak srednje vrijednosti iz beskonačne populacije približno normalan, ili Gaussova, sa prosjekom isto kao i osnovna populacija, a varijansa jednaka varijansi populacije podijeljene s uzorkom veličina. Približavanje se poboljšava kako veličina uzorka postaje veća.
Izjava o aproksimaciji ponekad se pogrešno tumači kao zaključak o konvergenciji u normalnu raspodjelu. Budući da se približna normalna raspodjela mijenja s povećanjem veličine uzorka, takva izjava zavarava.
Teorem je razvio Pierre Simon Laplace.
Zašto je svugdje
Uobičajene raspodjele su sveprisutne. Razlog dolazi iz teorema o središnjoj granici. Često se kada se vrijednost mjeri, to je zbroj učinaka mnogih neovisnih varijabli. Prema tome, vrijednost koja se sama mjeri ima kvalitetu srednje vrijednosti uzorka. Na primjer, raspodjela sportskih performansi može imati oblik zvona, kao rezultat razlika u prehrani, treningu, genetici, treniranju i psihologiji. Čak i muška visina ima normalnu raspodjelu, koja je funkcija mnogih bioloških čimbenika.
Gaussian Copulas
Ono što se naziva "funkcijom kopule" s Gaussovom distribucijom bilo je u vijestima 2009. godine zbog njegove upotrebe u procjeni rizika ulaganja u kolateralizirane obveznice. Zlouporaba funkcije bila je ključna u financijskoj krizi 2008-2009. Iako je bilo mnogo uzroka krize, unatrag Gaussove distribucije vjerojatno nisu trebale biti korištene. Funkcija s debljim repom dodijelila bi veću vjerojatnost štetnim događajima.
Izvođenje
Teorem o središnjoj granici može se dokazati u mnogim redovima analizom funkcije generiranja trenutka (mgf) (uzorka srednja vrijednost - srednja vrijednost populacije) /? (varijance populacije / veličina uzorka) u funkciji mgf osnovne populacije. Aproksimacijski dio teorema uvodi se širenjem mgf osnovne populacije kao potencijski niz, a zatim se pokazuje da je većina pojmova beznačajna kako veličina uzorka postaje velika.
To se može dokazati u mnogo manje redaka korištenjem Taylorove ekspanzije na karakterističnoj jednadžbi iste funkcije i povećavanjem veličine uzorka.
Računarska pogodnost
Neki statistički modeli pretpostavljaju da su pogreške Gaussove. To omogućuje raspodjelu funkcija normalnih varijabli, poput hi-kvadrata i F-raspodjele, da se koriste u ispitivanju hipoteza. Točnije, u F-testu, F statistika sastoji se od omjera raspodjele hi-kvadrata, koji su sami po sebi funkcije parametra normalne varijance. Odnos njih dvoje uzrokuje poništavanje varijance, što omogućava provjeru hipoteza bez poznavanja varijanci, osim njihove normalnosti i postojanosti.