Vad är Gaussisk distribution?

I statistiken används den gaussiska eller normala fördelningen för att karakterisera komplexa system med många faktorer. Som beskrivs i Stephen Stiglers The History of Statistics, uppfann Abraham De Moivre distributionen som bär Karl Fredrick Gauss namn. Gauss bidrag låg i hans tillämpning av fördelningen till lägsta kvadratmetoden för att minimera fel i anpassning av data med en linje med bästa passform. Han gjorde det därmed till den viktigaste felfördelningen i statistiken.

Motivering

Vad är fördelningen av ett urval av data? Vad händer om du inte känner till datans underliggande distribution? Finns det något sätt att testa hypoteser om data utan att känna till den underliggande fördelningen? Tack vare Central Limit Theorem är svaret ja.

Satsens uttalande

Det anges att ett provmedelvärde från en oändlig befolkning är ungefär normalt eller Gaussiskt med medelvärde samma som den underliggande populationen, och varians lika med populationsvariansen dividerat med urvalet storlek. Uppskattningen förbättras när provstorleken blir stor.

Ungefärligt uttalande är ibland felaktigt som en slutsats om konvergens till en normalfördelning. Eftersom den ungefärliga normalfördelningen ändras när provstorleken ökar är ett sådant uttalande missvisande.

Satsen utvecklades av Pierre Simon Laplace.

Varför det är överallt

Normala fördelningar är allestädes närvarande. Anledningen kommer från Central Limit Theorem. Ofta, när ett värde mäts, är det summan av många oberoende variabler. Därför har värdet som mäts i sig en medelvärdeskvalitet. Till exempel kan en fördelning av idrottares prestationer ha en klockform som ett resultat av skillnader i kost, träning, genetik, coachning och psykologi. Även mäns höjder har en normalfördelning, eftersom de är en funktion av många biologiska faktorer.

Gaussiska Copulas

Det som kallas en “copula-funktion” med en Gaussisk distribution var i nyheterna 2009 på grund av dess användning för att bedöma risken för att investera i säkerhetsobligationer. Missbruk av funktionen var avgörande för finanskrisen 2008-2009. Även om det fanns många orsaker till krisen, borde i efterhand sannolikt inte ha använts gaussiska fördelningar. En funktion med en tjockare svans skulle ha tilldelat biverkningar större sannolikhet.

Härledning

The Central Limit Theorem kan bevisas i många rader genom att analysera momentgenereringsfunktionen (mgf) för (samplet medelvärde - populationsmedelvärde) /? (populationsvarians / provstorlek) som en funktion av mgf för den underliggande populationen. Den ungefärliga delen av satsen introduceras genom att utvidga den underliggande befolkningens mgf som en kraftserie och sedan visa att de flesta termer är obetydliga eftersom urvalsstorleken blir stor.

Det kan bevisas på mycket färre rader genom att använda en Taylor-expansion på den karakteristiska ekvationen för samma funktion och göra provstorleken stor.

Beräkningsbekvämlighet

Vissa statistiska modeller antar att felen är gaussiska. Detta gör det möjligt att använda fördelningar av funktioner för normala variabler, som chi-kvadrat- och F-distribution, vid hypotesprovning. Specifikt, i F-testet, består F-statistiken av ett förhållande mellan chi-kvadratfördelningar, vilka själva är funktioner för en normal variansparameter. Förhållandet mellan de två orsakar att variansen avbryts, vilket möjliggör hypotesprovning utan kunskap om avvikelserna bortsett från deras normalitet och beständighet.

  • Dela med sig
instagram viewer