V štatistikách sa Gaussova alebo normálna distribúcia používa na charakterizáciu zložitých systémov s mnohými faktormi. Ako je opísané v Dejinách štatistiky Stephena Stiglera, Abraham De Moivre vynašiel distribúciu, ktorá nesie meno Karla Fredricka Gaussa. Príspevok Gaussa spočíval v jeho aplikácii prístupu distribúcie najmenších štvorcov k minimalizácii chyby pri prispôsobovaní údajov čiarou najlepšieho prispôsobenia. Urobil tak z neho najdôležitejšiu distribúciu chýb v štatistike.
Motivácia
Aké je rozdelenie vzorky údajov? Čo ak nepoznáte podkladovú distribúciu údajov? Existuje nejaký spôsob, ako otestovať hypotézy o údajoch bez znalosti podkladového rozdelenia? Vďaka Centrálnej limitnej vete je odpoveď áno.
Vyhlásenie o vete
Uvádza sa v ňom, že výberový priemer z nekonečnej populácie je približne normálny alebo gaussovský s priemerom rovnaké ako podkladová populácia a rozptyl rovný rozptylu populácie vydelený vzorkou veľkosť. Aproximácia sa zlepšuje s zväčšovaním veľkosti vzorky.
Aproximačný údaj je niekedy nesprávny ako záver o konvergencii k normálnemu rozdeleniu. Pretože sa približné normálne rozdelenie mení s rastúcou veľkosťou vzorky, je takéto tvrdenie zavádzajúce.
Vetu vyvinul Pierre Simon Laplace.
Prečo je to všade
Normálne rozdelenie je všadeprítomné. Dôvod pochádza z Central Limit Theorem. Častokrát, keď sa meria hodnota, je to súčet účinkov mnohých nezávislých premenných. Preto samotná meraná hodnota má pre ňu priemernú kvalitu vzorky. Napríklad rozdelenie športových výkonov môže mať tvar zvončeka v dôsledku rozdielov v stravovaní, tréningu, genetike, koučovaní a psychológii. Aj mužské výšky majú normálne rozdelenie, ktoré je funkciou mnohých biologických faktorov.
Gaussovské kopuly
To, čo sa nazýva „funkcia kopuly“ s Gaussovou distribúciou, bolo v správach v roku 2009 kvôli jej použitiu pri hodnotení rizika investovania do kolateralizovaných dlhopisov. Zneužitie tejto funkcie prispelo k finančnej kríze v rokoch 2008 - 2009. Napriek tomu, že kríza mala veľa príčin, pri spätnom pohľade by pravdepodobne nemalo byť použité Gaussovo rozdelenie. Funkcia s hrubším chvostom by priradila väčšiu pravdepodobnosť nežiaducim udalostiam.
Odvodenie
Centrálnu limitnú vetu možno dokázať v mnohých riadkoch analýzou funkcie generovania momentov (mgf) (vzorka) priemer - priemerná populácia) /? (rozptyl populácie / veľkosť vzorky) ako funkcia mgf základnej populácie. Aproximačná časť vety je predstavená rozšírením mgf základnej populácie ako mocninového radu, potom sa ukazuje, že väčšina výrazov je pri zväčšovaní veľkosti vzorky zanedbateľná.
Dá sa to dokázať na oveľa menšom počte riadkov použitím Taylorovho rozšírenia na charakteristickej rovnici tej istej funkcie a zväčšením veľkosti vzorky.
Výpočtové pohodlie
Niektoré štatistické modely predpokladajú, že chyby sú gaussovské. To umožňuje použitie rozdelenia funkcií normálnych premenných, ako je chí-kvadrát a F-distribúcia, pri testovaní hypotéz. Konkrétne v F-teste sa štatistika F skladá z pomeru chí-kvadrátových distribúcií, ktoré samotné sú funkciami parametra normálnej odchýlky. Pomer týchto dvoch faktorov vedie k zrušeniu odchýlky, čo umožňuje testovanie hypotéz bez znalosti odchýlok okrem ich normálnosti a stálosti.