W statystyce rozkład Gaussa lub normalny służy do charakteryzowania złożonych systemów z wieloma czynnikami. Jak opisano w Historii statystyki Stephena Stiglera, Abraham De Moivre wynalazł rozkład, który nosi nazwisko Karla Fredricka Gaussa. Wkład Gaussa polegał na zastosowaniu rozkładu do metody najmniejszych kwadratów w celu zminimalizowania błędu w dopasowaniu danych do linii najlepszego dopasowania. Uczynił więc z niego najważniejszy rozkład błędów w statystyce.
Motywacja
Jaki jest rozkład próbki danych? Co zrobić, jeśli nie znasz podstawowej dystrybucji danych? Czy istnieje sposób na przetestowanie hipotez dotyczących danych bez znajomości rozkładu bazowego? Dzięki Centralnemu Twierdzeniu Limitowemu odpowiedź brzmi: tak.
Stwierdzenie twierdzenia
Stwierdza, że średnia próbki z nieskończonej populacji jest w przybliżeniu normalna lub gaussowska, ze średnią taka sama jak populacja bazowa, a wariancja równa wariancji populacji podzielonej przez próbkę rozmiar. Aproksymacja poprawia się wraz ze wzrostem wielkości próbki.
Stwierdzenie aproksymacji jest czasami błędnie przedstawiane jako wniosek dotyczący zbieżności z rozkładem normalnym. Ponieważ przybliżony rozkład normalny zmienia się wraz ze wzrostem wielkości próby, takie stwierdzenie jest mylące.
Twierdzenie zostało opracowane przez Pierre'a Simona Laplace'a.
Dlaczego jest wszędzie?
Rozkłady normalne są wszechobecne. Powód pochodzi z centralnego twierdzenia granicznego. Często, gdy mierzona jest wartość, jest to sumaryczny efekt wielu zmiennych niezależnych. Dlatego wartość mierzona sama w sobie ma jakość średnią próbki. Na przykład rozkład występów sportowców może mieć kształt dzwonu, co wynika z różnic w diecie, treningu, genetyce, coachingu i psychologii. Nawet wzrost mężczyzn ma rozkład normalny, będący funkcją wielu czynników biologicznych.
Kopuła Gaussa
To, co nazywa się „funkcją kopuły” z rozkładem Gaussa, pojawiło się w wiadomościach w 2009 r. ze względu na jego zastosowanie w ocenie ryzyka inwestowania w obligacje zabezpieczone. Niewłaściwe wykorzystanie tej funkcji odegrało kluczową rolę w kryzysie finansowym w latach 2008-2009. Chociaż było wiele przyczyn kryzysu, z perspektywy czasu rozkłady Gaussa prawdopodobnie nie powinny były być używane. Funkcja z grubszym ogonem przypisałaby większe prawdopodobieństwo zdarzeniom niepożądanym.
Pochodzenie
Centralne Twierdzenie Graniczne można udowodnić w wielu wierszach, analizując funkcję generującą momenty (mgf) z (próbka średnia - średnia populacji)/?(wariancja populacji/wielkość próby) jako funkcja mgf populacji bazowej. Aproksymacyjna część twierdzenia jest wprowadzana przez rozwinięcie mgf populacji bazowej jako szereg potęgowy, a następnie pokazanie, że większość terminów jest nieistotna, gdy wielkość próbki staje się duża.
Można to udowodnić w znacznie mniejszej liczbie wierszy, stosując rozwinięcie Taylora równania charakterystycznego tej samej funkcji i zwiększając wielkość próbki.
Wygoda obliczeniowa
Niektóre modele statystyczne zakładają, że błędy są gaussowskie. Umożliwia to wykorzystanie rozkładów funkcji zmiennych normalnych, takich jak rozkład chi-kwadrat i F, do testowania hipotez. W szczególności w teście F statystyka F składa się ze stosunku rozkładów chi-kwadrat, które same w sobie są funkcjami normalnego parametru wariancji. Stosunek tych dwóch powoduje anulowanie wariancji, umożliwiając testowanie hipotez bez znajomości wariancji poza ich normalnością i stałością.