Ce este distribuția gaussiană?

În statistici, distribuția gaussiană sau normală este utilizată pentru a caracteriza sistemele complexe cu mulți factori. După cum este descris în The History of Statistics, de Stephen Stigler, Abraham De Moivre a inventat distribuția care poartă numele lui Karl Fredrick Gauss. Contribuția lui Gauss a constat în aplicarea distribuției la abordarea celor mai mici pătrate pentru a minimiza erorile la potrivirea datelor cu o linie de potrivire optimă. El a făcut astfel cea mai importantă distribuție a erorilor din statistici.

Motivație

Care este distribuția unui eșantion de date? Ce se întâmplă dacă nu cunoașteți distribuția subiacentă a datelor? Există vreo modalitate de a testa ipoteze despre date fără a cunoaște distribuția subiacentă? Datorită teoremei limitei centrale, răspunsul este da.

Afirmația teoremei

Se afirmă că un eșantion mediu dintr-o populație infinită este aproximativ normal sau gaussian, cu medie la fel ca populația subiacentă și varianța egală cu varianța populației împărțită la eșantion mărimea. Aproximarea se îmbunătățește pe măsură ce dimensiunea eșantionului devine mare.

instagram story viewer

Afirmația de aproximare este uneori greșită ca o concluzie despre convergența la o distribuție normală. Deoarece distribuția normală aproximativă se modifică pe măsură ce mărimea eșantionului crește, o astfel de afirmație este înșelătoare.

Teorema a fost dezvoltată de Pierre Simon Laplace.

De ce este pretutindeni

Distribuțiile normale sunt omniprezente. Motivul vine din teorema limitei centrale. Adesea, atunci când se măsoară o valoare, este efectul sumă al multor variabile independente. Prin urmare, valoarea măsurată în sine are o calitate medie a eșantionului. De exemplu, o distribuție a performanțelor sportivului poate avea o formă de clopot, ca urmare a diferențelor în dietă, antrenament, genetică, antrenor și psihologie. Chiar și înălțimile bărbaților au o distribuție normală, fiind o funcție a multor factori biologici.

Copule gaussiene

Ceea ce se numește o „funcție de copulă” cu o distribuție gaussiană a fost în știri în 2009, datorită utilizării sale în evaluarea riscului de a investi în obligațiuni garantate. Utilizarea greșită a funcției a fost esențială în criza financiară din 2008-2009. Deși au existat multe cauze ale crizei, în retrospectivă, distribuțiile gaussiene nu ar fi trebuit să fie folosite. O funcție cu o coadă mai groasă ar fi atribuit o probabilitate mai mare evenimentelor adverse.

Derivare

Teorema limitei centrale poate fi dovedită în mai multe rânduri prin analiza funcției de generare a momentului (mgf) a (eșantionului) media - media populației) /? (varianța populației / dimensiunea eșantionului) în funcție de mgf al populației subiacente. Partea de aproximare a teoremei este introdusă prin extinderea mgf a populației subiacente ca o serie de putere, arătând apoi că majoritatea termenilor sunt nesemnificativi, deoarece dimensiunea eșantionului devine mare.

Poate fi dovedit în mult mai puține linii utilizând o expansiune Taylor pe ecuația caracteristică a aceleiași funcții și mărind dimensiunea eșantionului.

Confort Computațional

Unele modele statistice presupun erorile ca fiind gaussiene. Acest lucru permite distribuții ale funcțiilor variabilelor normale, cum ar fi distribuția chi-pătrat și F, să fie utilizate în testarea ipotezelor. Mai exact, în testul F, statistica F este compusă dintr-un raport de distribuții chi-pătrat, care în sine sunt funcții ale unui parametru de varianță normal. Raportul celor două determină anularea varianței, permițând testarea ipotezelor fără cunoașterea variațiilor, în afară de normalitatea și constanța lor.

Teachs.ru
  • Acțiune
instagram viewer