Hva er Gaussisk distribusjon?

I statistikk brukes den gaussiske eller normale distribusjonen for å karakterisere komplekse systemer med mange faktorer. Som beskrevet i Stephen Stiglers The History of Statistics, oppfant Abraham De Moivre distribusjonen som bærer Karl Fredrick Gauss navn. Gauss 'bidrag lå i hans anvendelse av fordelingen til minste kvadraters tilnærming for å minimere feil i tilpasning av data med en linje som passer best. Han gjorde det dermed til den viktigste feilfordelingen i statistikken.

Motivasjon

Hva er fordelingen av et utvalg av data? Hva om du ikke kjenner til den underliggende distribusjonen av dataene? Er det noen måte å teste hypoteser om dataene uten å vite den underliggende fordelingen? Takket være Central Limit Theorem er svaret ja.

Teoremets uttalelse

Det står at et utvalg gjennomsnitt fra en uendelig populasjon er omtrent normal, eller Gaussisk, med gjennomsnitt det samme som den underliggende populasjonen, og varians lik populasjonsvariansen delt på utvalget størrelse. Tilnærmingen forbedres ettersom prøvestørrelsen blir stor.

Tilnærmingsuttalelsen er noen ganger feilaktig som en konklusjon om konvergens til en normalfordeling. Siden den omtrentlige normalfordelingen endres når prøvestørrelsen øker, er en slik påstand villedende.

Teoremet ble utviklet av Pierre Simon Laplace.

Hvorfor det er overalt

Normalfordelinger er allestedsnærværende. Årsaken kommer fra Central Limit Theorem. Ofte, når en verdi måles, er det sumeffekten av mange uavhengige variabler. Derfor har verdien som måles i seg selv en middelkvalitet. For eksempel kan en fordeling av idrettsutøvelser ha en bjelleform, som et resultat av forskjeller i kosthold, trening, genetikk, coaching og psykologi. Selv menns høyder har en normalfordeling, og er en funksjon av mange biologiske faktorer.

Gaussiske kopuler

Det som kalles en "copula-funksjon" med en gaussisk fordeling, var i nyhetene i 2009 på grunn av bruken av den til å vurdere risikoen for å investere i sikkerhetsstillelser. Misbruk av funksjonen var medvirkende til finanskrisen 2008-2009. Selv om det var mange årsaker til krisen, burde Gauss-distribusjoner i ettertid sannsynligvis ikke ha blitt brukt. En funksjon med tykkere hale ville gitt større sannsynlighet for uønskede hendelser.

Derivasjon

The Central Limit Theorem kan påvises i mange linjer ved å analysere momentgenererende funksjon (mgf) til (prøve gjennomsnitt - populasjonsmiddel) /? (populasjonsvarians / utvalgstørrelse) som en funksjon av mgf for den underliggende populasjonen. Tilnærmelsesdelen av teoremet introduseres ved å utvide den underliggende befolkningens mgf som en maktserie, og deretter vise at de fleste begrepene er ubetydelige ettersom prøvestørrelsen blir stor.

Det kan påvises i langt færre linjer ved å bruke en Taylor-utvidelse på den karakteristiske ligningen av samme funksjon og gjøre prøvestørrelsen stor.

Computational Convenience

Noen statistiske modeller antar at feilene er gaussiske. Dette gjør at distribusjoner av funksjoner til normale variabler, som chi-kvadrat- og F-distribusjon, kan brukes i hypotesetesting. Spesifikt, i F-testen, er F-statistikken sammensatt av et forhold mellom chi-kvadratfordelinger, som i seg selv er funksjoner til en normal variansparameter. Forholdet mellom de to får variansen til å avbrytes, noe som muliggjør hypotesetesting uten kjennskap til avvikene bortsett fra deres normalitet og konstantitet.

  • Dele
instagram viewer