Qu'est-ce que la distribution gaussienne?

En statistique, la distribution gaussienne, ou normale, est utilisée pour caractériser des systèmes complexes avec de nombreux facteurs. Comme décrit dans The History of Statistics de Stephen Stigler, Abraham De Moivre a inventé la distribution qui porte le nom de Karl Fredrick Gauss. La contribution de Gauss réside dans son application de la distribution à l'approche des moindres carrés pour minimiser l'erreur dans l'ajustement des données avec une ligne de meilleur ajustement. Il en a ainsi fait la distribution d'erreurs la plus importante en statistique.

Motivation

Quelle est la distribution d'un échantillon de données? Que faire si vous ne connaissez pas la distribution sous-jacente des données? Existe-t-il un moyen de tester des hypothèses sur les données sans connaître la distribution sous-jacente? Grâce au théorème central limite, la réponse est oui.

Énoncé du théorème

Il indique qu'une moyenne d'échantillon d'une population infinie est approximativement normale, ou gaussienne, avec une moyenne identique à la population sous-jacente et variance égale à la variance de la population divisée par l'échantillon Taille. L'approximation s'améliore à mesure que la taille de l'échantillon augmente.

instagram story viewer

L'énoncé d'approximation est parfois mal interprété comme une conclusion sur la convergence vers une distribution normale. Étant donné que la distribution normale approximative change à mesure que la taille de l'échantillon augmente, une telle affirmation est trompeuse.

Le théorème a été développé par Pierre Simon Laplace.

Pourquoi c'est partout

Les distributions normales sont omniprésentes. La raison vient du théorème central limite. Souvent, lorsqu'une valeur est mesurée, c'est l'effet de la somme de nombreuses variables indépendantes. Par conséquent, la valeur mesurée elle-même a une qualité de moyenne d'échantillon. Par exemple, une distribution des performances d'athlètes peut avoir une forme de cloche, en raison de différences dans l'alimentation, l'entraînement, la génétique, l'entraînement et la psychologie. Même la taille des hommes a une distribution normale, étant fonction de nombreux facteurs biologiques.

Copules Gaussiennes

Ce qu'on appelle une « fonction de copule » avec une distribution gaussienne a fait la une des journaux en 2009 en raison de son utilisation pour évaluer le risque d'investir dans des obligations garanties. Le détournement de la fonction a joué un rôle déterminant dans la crise financière de 2008-2009. Bien qu'il y ait eu de nombreuses causes de la crise, avec le recul, les distributions gaussiennes n'auraient probablement pas dû être utilisées. Une fonction avec une queue plus épaisse aurait attribué une plus grande probabilité aux événements indésirables.

Dérivation

Le théorème central limite peut être prouvé dans de nombreuses lignes en analysant la fonction génératrice de moment (mgf) de (échantillon moyenne - moyenne de la population)/? (variance de la population / taille de l'échantillon) en fonction de la mgf de la population sous-jacente. La partie approximation du théorème est introduite en développant le mgf de la population sous-jacente en tant que série de puissance, puis en montrant que la plupart des termes sont insignifiants à mesure que la taille de l'échantillon devient grande.

Il peut être prouvé en beaucoup moins de lignes en utilisant un développement de Taylor sur l'équation caractéristique de la même fonction et en agrandissant la taille de l'échantillon.

Commodité informatique

Certains modèles statistiques supposent que les erreurs sont gaussiennes. Cela permet d'utiliser des distributions de fonctions de variables normales, telles que la distribution du chi carré et la distribution F, dans les tests d'hypothèse. Plus précisément, dans le test F, la statistique F est composée d'un rapport de distributions du Khi deux, qui sont elles-mêmes des fonctions d'un paramètre de variance normale. Le rapport des deux provoque l'annulation de la variance, ce qui permet de tester les hypothèses sans connaître les variances en dehors de leur normalité et de leur constance.

Teachs.ru
  • Partager
instagram viewer