Hvad er Gaussisk distribution?

I statistikker bruges den gaussiske eller normale distribution til at karakterisere komplekse systemer med mange faktorer. Som beskrevet i Stephen Stiglers The History of Statistics, opfandt Abraham De Moivre distributionen, der bærer Karl Fredrick Gauss navn. Gauss's bidrag lå i hans anvendelse af fordelingen til mindste kvadraters tilgang til at minimere fejl i tilpasning af data med en linje med den bedste pasform. Han gjorde det således til den vigtigste fejlfordeling i statistikker.

Motivering

Hvad er fordelingen af ​​en stikprøve af data? Hvad hvis du ikke kender dataets underliggende distribution? Er der nogen måde at teste hypoteser om dataene uden at kende den underliggende fordeling? Takket være Central Limit Theorem er svaret ja.

Sætning

Det hedder, at et stikprøvesnit fra en uendelig befolkning er tilnærmelsesvis normalt eller Gaussisk, med middelværdi det samme som den underliggende population, og varians svarende til populationsvariansen divideret med prøven størrelse. Tilnærmelsen forbedres, efterhånden som stikprøvestørrelsen bliver stor.

instagram story viewer

Tilnærmelseserklæringen er undertiden fejlagtig som en konklusion om konvergens til en normalfordeling. Da den omtrentlige normale fordeling ændres, efterhånden som stikprøvestørrelsen stiger, er en sådan påstand vildledende.

Teoremet blev udviklet af Pierre Simon Laplace.

Hvorfor det er overalt

Normale fordelinger er allestedsnærværende. Årsagen kommer fra Central Limit Theorem. Ofte, når en værdi måles, er det sumeffekten af ​​mange uafhængige variabler. Derfor har den værdi, der måles i sig selv, en prøve-gennemsnitlig kvalitet. For eksempel kan en fordeling af atletes præstationer have en klokkeform som et resultat af forskelle i kost, træning, genetik, coaching og psykologi. Selv mænds højder har en normalfordeling og er en funktion af mange biologiske faktorer.

Gaussiske kopuler

Hvad der kaldes en “copula-funktion” med en Gaussisk fordeling var i nyhederne i 2009 på grund af dens anvendelse til vurdering af risikoen for at investere i sikkerhedsstillede obligationer. Misbrug af funktionen var medvirkende til finanskrisen 2008-2009. Selv om der var mange årsager til krisen, skulle Gaussiske fordelinger i bakspejlet sandsynligvis ikke have været brugt. En funktion med en tykkere hale ville have tildelt større sandsynlighed for uønskede hændelser.

Afledning

The Central Limit Theorem kan bevises på mange linjer ved at analysere momentgenereringsfunktionen (mgf) for (prøve middel - populationsgennemsnit) /? (populationsvarians / stikprøvestørrelse) som en funktion af mgf for den underliggende population. Tilnærmelsesdelen af ​​sætningen introduceres ved at udvide den underliggende befolknings mgf som en magtserie, hvorefter de fleste udtryk er ubetydelige, da stikprøvestørrelsen bliver stor.

Det kan bevises på langt færre linjer ved at bruge en Taylor-udvidelse i den karakteristiske ligning af den samme funktion og gøre prøvestørrelsen stor.

Computational Convenience

Nogle statistiske modeller antager, at fejlene er gaussiske. Dette gør det muligt at anvende fordeling af funktioner af normale variabler, som chi-kvadrat- og F-distribution, i hypotesetest. Specifikt er F-testen i F-testen sammensat af et forhold mellem chi-kvadratfordelinger, som i sig selv er funktioner i en normal variansparameter. Forholdet mellem de to får variansen til at annullere, hvilket muliggør hypotesetest uden kendskab til afvigelser bortset fra deres normalitet og konstantitet.

Teachs.ru
  • Del
instagram viewer