¿Qué es la distribución gaussiana?

En estadística, la distribución gaussiana o normal se utiliza para caracterizar sistemas complejos con muchos factores. Como se describe en The History of Statistics de Stephen Stigler, Abraham De Moivre inventó la distribución que lleva el nombre de Karl Fredrick Gauss. La contribución de Gauss radica en su aplicación de la distribución al método de mínimos cuadrados para minimizar el error al ajustar los datos con una línea de mejor ajuste. Por lo tanto, la convirtió en la distribución de errores más importante en estadística.

Motivación

¿Cuál es la distribución de una muestra de datos? ¿Qué pasa si no conoce la distribución subyacente de los datos? ¿Hay alguna forma de probar hipótesis sobre los datos sin conocer la distribución subyacente? Gracias al teorema del límite central, la respuesta es sí.

Declaración del teorema

Establece que una media muestral de una población infinita es aproximadamente normal, o gaussiana, con media igual que la población subyacente, y la varianza es igual a la varianza de la población dividida por la muestra Talla. La aproximación mejora a medida que aumenta el tamaño de la muestra.

El enunciado de aproximación a veces se presenta erróneamente como una conclusión sobre la convergencia a una distribución normal. Dado que la distribución normal aproximada cambia a medida que aumenta el tamaño de la muestra, tal afirmación es engañosa.

El teorema fue desarrollado por Pierre Simon Laplace.

Por qué está en todas partes

Las distribuciones normales son omnipresentes. La razón proviene del teorema del límite central. A menudo, cuando se mide un valor, es el efecto de la suma de muchas variables independientes. Por lo tanto, el valor que se mide en sí mismo tiene una calidad de media muestral. Por ejemplo, una distribución de las actuaciones de un atleta puede tener forma de campana, como resultado de diferencias en la dieta, el entrenamiento, la genética, el entrenamiento y la psicología. Incluso la altura de los hombres tiene una distribución normal, en función de muchos factores biológicos.

Cópulas gaussianas

Lo que se denomina “función cópula” con distribución gaussiana fue noticia en 2009 debido a su uso para evaluar el riesgo de invertir en bonos garantizados. El mal uso de la función fue fundamental en la crisis financiera de 2008-2009. Aunque hubo muchas causas de la crisis, en retrospectiva, las distribuciones gaussianas probablemente no deberían haberse utilizado. Una función con una cola más gruesa habría asignado una mayor probabilidad a los eventos adversos.

Derivación

El teorema del límite central se puede probar en muchas líneas analizando la función generadora de momento (mgf) de (muestra media - media de la población) /? (varianza de la población / tamaño de la muestra) en función del mgf de la población subyacente. La parte de aproximación del teorema se introduce expandiendo el mgf de la población subyacente como una serie de potencias, y luego se muestra que la mayoría de los términos son insignificantes a medida que aumenta el tamaño de la muestra.

Se puede probar en muchas menos líneas usando una expansión de Taylor en la ecuación característica de la misma función y haciendo que el tamaño de la muestra sea grande.

Conveniencia computacional

Algunos modelos estadísticos presumen que los errores son gaussianos. Esto permite que las distribuciones de funciones de variables normales, como la distribución de chi-cuadrado y F, se utilicen en la prueba de hipótesis. Específicamente, en la prueba F, el estadístico F se compone de una proporción de distribuciones de chi-cuadrado, que son funciones de un parámetro de varianza normal. La razón de los dos hace que la varianza se cancele, lo que permite la prueba de hipótesis sin conocimiento de las varianzas, además de su normalidad y constancia.

  • Cuota
instagram viewer