In de statistiek wordt de Gaussische of normale verdeling gebruikt om complexe systemen met veel factoren te karakteriseren. Zoals beschreven in The History of Statistics van Stephen Stigler, vond Abraham De Moivre de distributie uit die de naam van Karl Fredrick Gauss draagt. De bijdrage van Gauss lag in zijn toepassing van de verdeling op de kleinste-kwadratenbenadering om fouten bij het passen van gegevens met een best passende lijn te minimaliseren. Daarmee maakte hij het de belangrijkste foutenverdeling in de statistiek.
Motivatie
Wat is de verdeling van een steekproef van gegevens? Wat als u de onderliggende distributie van de gegevens niet kent? Is er een manier om hypothesen over de gegevens te testen zonder de onderliggende distributie te kennen? Dankzij de centrale limietstelling is het antwoord ja.
Verklaring van de stelling
Het stelt dat een steekproefgemiddelde van een oneindige populatie ongeveer normaal is, of Gaussiaans, met gemiddelde gelijk aan de onderliggende populatie, en variantie gelijk aan de populatievariantie gedeeld door de steekproef grootte. De benadering verbetert naarmate de steekproef groter wordt.
De benaderingsverklaring wordt soms verkeerd weergegeven als een conclusie over convergentie naar een normale verdeling. Aangezien de benaderende normale verdeling verandert naarmate de steekproefomvang toeneemt, is een dergelijke verklaring misleidend.
De stelling is ontwikkeld door Pierre Simon Laplace.
Waarom het overal is
Normale verdelingen zijn alomtegenwoordig. De reden komt van de centrale limietstelling. Wanneer een waarde wordt gemeten, is dit vaak het som-effect van vele onafhankelijke variabelen. Daarom heeft de waarde die wordt gemeten zelf een steekproefgemiddelde kwaliteit. Een verdeling van sportprestaties kan bijvoorbeeld een klokvorm hebben, als gevolg van verschillen in voeding, training, genetica, coaching en psychologie. Zelfs de lengte van mannen heeft een normale verdeling, omdat het een functie is van vele biologische factoren.
Gaussische copula's
Wat een 'copula-functie' met een Gauss-verdeling wordt genoemd, was in 2009 in het nieuws vanwege het gebruik ervan bij het beoordelen van het risico van beleggen in obligaties met onderpand. Het misbruik van de functie was instrumenteel in de financiële crisis van 2008-2009. Hoewel er veel oorzaken waren voor de crisis, hadden Gauss-verdelingen achteraf gezien waarschijnlijk niet gebruikt mogen worden. Een functie met een dikkere staart zou een grotere kans op bijwerkingen hebben toegekend.
Afleiding
De centrale limietstelling kan in veel regels worden bewezen door de momentgenererende functie (mgf) van (voorbeeld gemiddelde - populatiegemiddelde)/?(populatievariantie / steekproefomvang) als functie van de mgf van de onderliggende populatie. Het benaderingsgedeelte van de stelling wordt geïntroduceerd door de mgf van de onderliggende populatie uit te breiden als een machtreeks, en vervolgens te laten zien dat de meeste termen onbeduidend zijn naarmate de steekproef groter wordt.
Het kan in veel minder regels worden bewezen door een Taylor-expansie te gebruiken op de karakteristieke vergelijking van dezelfde functie en de steekproefomvang groot te maken.
Computationeel gemak
Sommige statistische modellen veronderstellen dat de fouten Gaussiaans zijn. Hierdoor kunnen verdelingen van functies van normale variabelen, zoals de chi-kwadraat- en F-verdeling, worden gebruikt bij het testen van hypothesen. Met name in de F-test is de F-statistiek samengesteld uit een verhouding van chikwadraatverdelingen, die zelf functies zijn van een normale variantieparameter. De verhouding van de twee zorgt ervoor dat de variantie wordt opgeheven, waardoor hypothesen kunnen worden getest zonder kennis van de varianties, afgezien van hun normaliteit en constantheid.