Che cos'è la distribuzione gaussiana?

In statistica, la distribuzione gaussiana, o normale, viene utilizzata per caratterizzare sistemi complessi con molti fattori. Come descritto in The History of Statistics di Stephen Stigler, Abraham De Moivre ha inventato la distribuzione che porta il nome di Karl Fredrick Gauss. Il contributo di Gauss risiede nell'applicazione dell'approccio della distribuzione ai minimi quadrati per ridurre al minimo l'errore nell'adattamento dei dati con una linea di miglior adattamento. Ha quindi reso la distribuzione di errore più importante nelle statistiche.

Motivazione

Qual è la distribuzione di un campione di dati? Cosa succede se non si conosce la distribuzione sottostante dei dati? C'è un modo per testare ipotesi sui dati senza conoscere la distribuzione sottostante? Grazie al teorema del limite centrale, la risposta è sì.

Enunciato del Teorema

Afferma che una media campionaria di una popolazione infinita è approssimativamente normale, o gaussiana, con media uguale alla popolazione sottostante e varianza uguale alla varianza della popolazione divisa per il campione dimensione. L'approssimazione migliora man mano che la dimensione del campione diventa grande.

L'affermazione di approssimazione è talvolta errata come conclusione sulla convergenza a una distribuzione normale. Poiché l'approssimazione della distribuzione normale cambia all'aumentare della dimensione del campione, tale affermazione è fuorviante.

Il teorema è stato sviluppato da Pierre Simon Laplace.

Perché è ovunque?

Le distribuzioni normali sono onnipresenti. Il motivo deriva dal teorema del limite centrale. Spesso, quando un valore viene misurato, è l'effetto somma di molte variabili indipendenti. Pertanto, il valore stesso misurato ha una qualità di media campionaria. Ad esempio, una distribuzione delle prestazioni di un atleta può avere una forma a campana, a causa delle differenze nella dieta, nell'allenamento, nella genetica, nell'allenamento e nella psicologia. Anche l'altezza degli uomini ha una distribuzione normale, essendo funzione di molti fattori biologici.

Copule Gaussiane

La cosiddetta “funzione copula” con distribuzione gaussiana ha fatto notizia nel 2009 per il suo utilizzo nella valutazione del rischio di investire in obbligazioni collateralizzate. L'uso improprio della funzione è stato determinante nella crisi finanziaria del 2008-2009. Sebbene ci fossero molte cause della crisi, con il senno di poi le distribuzioni gaussiane probabilmente non avrebbero dovuto essere utilizzate. Una funzione con una coda più spessa avrebbe assegnato una maggiore probabilità agli eventi avversi.

Derivazione

Il teorema del limite centrale può essere dimostrato in molte righe analizzando la funzione generatrice del momento (mgf) di (campione media - media della popolazione)/?(varianza della popolazione / dimensione del campione) in funzione del mgf della popolazione sottostante. La parte di approssimazione del teorema viene introdotta espandendo mgf della popolazione sottostante come una serie di potenze, quindi mostrando che la maggior parte dei termini è insignificante man mano che la dimensione del campione diventa grande.

Può essere dimostrato in molte meno righe utilizzando uno sviluppo di Taylor sull'equazione caratteristica della stessa funzione e rendendo grande la dimensione del campione.

Convenienza computazionale

Alcuni modelli statistici presumono che gli errori siano gaussiani. Ciò consente di utilizzare le distribuzioni di funzioni di variabili normali, come la distribuzione chi-quadrato e F, nei test di ipotesi. Nello specifico, nel test F, la statistica F è composta da un rapporto di distribuzioni chi-quadrato, che a loro volta sono funzioni di un normale parametro di varianza. Il rapporto tra i due fa sì che la varianza si annulli, consentendo il test di ipotesi senza la conoscenza delle varianze a parte la loro normalità e costanza.

  • Condividere
instagram viewer