Ve statistikách se Gaussian neboli normální distribuce používá k charakterizaci složitých systémů s mnoha faktory. Jak je popsáno v Dějinách statistiky Stephena Stiglera, Abraham De Moivre vynalezl distribuci, která nese jméno Karla Fredricka Gaussa. Gaussův příspěvek spočíval v jeho aplikaci distribuce na metodu nejmenších čtverců k minimalizaci chyb při přizpůsobování dat řádkem nejlepšího přizpůsobení. Učinil tak z něj nejdůležitější rozdělení chyb ve statistikách.
Motivace
Jaká je distribuce vzorku dat? Co když neznáte základní distribuci dat? Existuje nějaký způsob, jak otestovat hypotézy o datech, aniž byste věděli o základní distribuci? Díky Central Limit Theorem je odpověď ano.
Prohlášení o větě
Uvádí, že průměr vzorku z nekonečné populace je přibližně normální nebo Gaussian, se střední hodnotou stejné jako základní populace a rozptyl rovný rozptylu populace vydělený vzorkem velikost. S přibývající velikostí vzorku se aproximace zlepšuje.
Prohlášení o aproximaci je někdy nesprávně uvedeno jako závěr o konvergenci k normálnímu rozdělení. Protože se s přibývající velikostí vzorku mění přibližné normální rozdělení, je takové tvrzení zavádějící.
Věta byla vyvinuta Pierre Simon Laplace.
Proč je to všude
Normální distribuce jsou všudypřítomné. Důvod pochází z Central Limit Theorem. Často se při měření hodnoty jedná o součet účinků mnoha nezávislých proměnných. Samotná měřená hodnota má proto průměrnou kvalitu vzorku. Například rozložení sportovních výkonů může mít tvar zvonu v důsledku rozdílů ve stravě, tréninku, genetice, koučování a psychologii. Dokonce i výšky mužů mají normální rozdělení, které je funkcí mnoha biologických faktorů.
Gaussovské kopule
To, čemu se říká „funkce kopule“ s Gaussovou distribucí, bylo ve zprávách v roce 2009 kvůli jejímu použití při hodnocení rizika investic do zajištěných dluhopisů. Zneužití této funkce pomohlo finanční krizi v letech 2008–2009. I když příčin krize bylo mnoho, při zpětném pohledu by pravděpodobně nemělo být použito Gaussovo rozdělení. Funkce se silnějším ocasem by přiřadila větší pravděpodobnost nepříznivým událostem.
Derivace
Centrální limitní teorém lze v mnoha řádcích dokázat analýzou funkce generování momentů (mgf) (vzorek) průměr - průměr populace) /? (rozptyl populace / velikost vzorku) jako funkce mgf základní populace. Aproximační část věty se zavádí rozšířením základní populace mgf jako mocninové řady, poté se ukazuje, že většina výrazů je při zvětšení velikosti vzorku zanedbatelná.
To lze dokázat na mnohem menším počtu řádků pomocí Taylorova rozšíření na charakteristické rovnici stejné funkce a zvětšení velikosti vzorku.
Výpočetní pohodlí
Některé statistické modely předpokládají, že chyby jsou Gaussovy. To umožňuje použití rozdělení normálních proměnných, jako je rozdělení chí-kvadrát a F, při testování hypotéz. Konkrétně v F-testu se statistika F skládá z poměru distribucí chí-kvadrát, které samy o sobě jsou funkcemi normálního rozptylového parametru. Poměr těchto dvou způsobí zrušení rozptylu, což umožňuje testování hypotéz bez znalosti odchylek kromě jejich normality a stálosti.