Em estatística, a distribuição gaussiana, ou normal, é usada para caracterizar sistemas complexos com muitos fatores. Conforme descrito em The History of Statistics, de Stephen Stigler, Abraham De Moivre inventou a distribuição que leva o nome de Karl Fredrick Gauss. A contribuição de Gauss está em sua aplicação da distribuição para a abordagem dos mínimos quadrados para minimizar o erro no ajuste de dados com uma linha de melhor ajuste. Assim, ele a tornou a distribuição de erros mais importante nas estatísticas.
Motivação
Qual é a distribuição de uma amostra de dados? E se você não souber a distribuição subjacente dos dados? Existe alguma maneira de testar hipóteses sobre os dados sem saber a distribuição subjacente? Graças ao Teorema do Limite Central, a resposta é sim.
Declaração do Teorema
Afirma que uma média de amostra de uma população infinita é aproximadamente normal, ou Gaussiana, com média o mesmo que a população subjacente e a variância igual à variância da população dividida pela amostra Tamanho. A aproximação melhora à medida que o tamanho da amostra aumenta.
A declaração de aproximação às vezes é distorcida como uma conclusão sobre a convergência para uma distribuição normal. Uma vez que a distribuição normal aproximada muda com o aumento do tamanho da amostra, tal afirmação é enganosa.
O teorema foi desenvolvido por Pierre Simon Laplace.
Por que está em toda parte
As distribuições normais são onipresentes. A razão vem do Teorema do Limite Central. Muitas vezes, quando um valor é medido, é o efeito da soma de muitas variáveis independentes. Portanto, o valor que está sendo medido em si tem uma qualidade média de amostra. Por exemplo, a distribuição do desempenho do atleta pode ter a forma de um sino, como resultado de diferenças na dieta, treinamento, genética, treinamento e psicologia. Até a altura dos homens tem distribuição normal, sendo função de diversos fatores biológicos.
Cópulas Gaussianas
O que é chamado de “função de cópula” com distribuição gaussiana foi notícia em 2009 devido ao seu uso na avaliação do risco de investir em títulos garantidos. O uso indevido da função foi fundamental para a crise financeira de 2008-2009. Embora houvesse muitas causas para a crise, em retrospectiva, as distribuições gaussianas provavelmente não deveriam ter sido usadas. Uma função com cauda mais espessa teria atribuído maior probabilidade de eventos adversos.
Derivação
O Teorema do Limite Central pode ser provado em muitas linhas, analisando a função geradora de momento (mgf) de (amostra média - média da população) /? (variação da população / tamanho da amostra) como uma função do mgf da população subjacente. A parte de aproximação do teorema é introduzida pela expansão do mgf da população subjacente como uma série de potências, em seguida, mostrando que a maioria dos termos são insignificantes conforme o tamanho da amostra aumenta.
Pode ser provado em muito menos linhas usando uma expansão de Taylor na equação característica da mesma função e tornando o tamanho da amostra grande.
Conveniência Computacional
Alguns modelos estatísticos presumem que os erros sejam gaussianos. Isso permite que as distribuições de funções de variáveis normais, como a distribuição do qui-quadrado e a distribuição F, sejam usadas em testes de hipóteses. Especificamente, no teste F, a estatística F é composta por uma razão de distribuições de qui-quadrado, que são funções de um parâmetro de variância normal. A proporção dos dois faz com que a variância se cancele, permitindo o teste de hipótese sem conhecimento das variâncias além de sua normalidade e constância.