Що таке гауссове розподіл?

У статистиці гауссовський, або нормальний розподіл використовується для характеристики складних систем з багатьма факторами. Як описано в "Історії статистики" Стівена Стіглера, Абрахам Де Мойвр винайшов розподіл, який носить ім'я Карла Фредріка Гаусса. Внесок Гаусса полягав у його застосуванні підходу розподілу до найменших квадратів для мінімізації помилок у підборі даних з лінією, що найкраще підходить. Таким чином, він зробив це найважливішим розподілом помилок у статистиці.

Мотивація

Який розподіл вибірки даних? Що робити, якщо ви не знаєте основного розподілу даних? Чи є спосіб перевірити гіпотези щодо даних, не знаючи основного розподілу? Завдяки центральній граничній теоремі відповідь так.

Постановка теореми

У ній зазначається, що середнє значення вибірки з нескінченної сукупності є приблизно нормальним, або гауссова, із середнім значенням така ж, як основна сукупність, і дисперсія, рівна дисперсії популяції, поділеній на вибірку розмір. Наближення покращується, оскільки обсяг вибірки стає більшим.

Заява про апроксимацію іноді хибно сприймається як висновок про збіжність до нормального розподілу. Оскільки наближений нормальний розподіл змінюється із збільшенням обсягу вибірки, таке твердження вводить в оману.

Теорема була розроблена П'єром Симоном Лапласом.

Чому це скрізь

Звичайний розподіл всюди присутній. Причина випливає з центральної граничної теореми. Часто, коли вимірюється значення, це сумарний ефект багатьох незалежних змінних. Отже, саме значення, яке вимірюється, має середню якість вибірки. Наприклад, розподіл виступів спортсменів може мати форму дзвоника в результаті відмінностей у дієті, тренуванні, генетиці, тренуванні та психології. Навіть висота чоловіків має нормальний розподіл, оскільки є функцією багатьох біологічних факторів.

Гауссові копули

Те, що називають "функцією копули" з гауссовим розподілом, було в новинах у 2009 році через його використання при оцінці ризику інвестування в забезпечені облігації. Зловживання цією функцією сприяло фінансовій кризі 2008-2009 років. Незважаючи на те, що причин кризи було багато, заднім числом гауссові розподіли, ймовірно, не повинні використовуватися. Функція з більш товстим хвостом призначила б більшу ймовірність несприятливих подій.

Виведення

Теорему про центральну межу можна довести у багатьох рядках, проаналізувавши функцію, що генерує момент (mgf) (зразка середнє - середнє значення сукупності) /? (дисперсія популяції / розмір вибірки) як функція від mgf основної сукупності. Частина наближення теореми вводиться шляхом розширення mgf основної сукупності як степенного ряду, а потім показуючи, що більшість термінів є незначними, оскільки обсяг вибірки стає більшим.

Це можна довести набагато меншою кількістю рядків, використовуючи розкладання Тейлора на характеристичному рівнянні тієї самої функції та збільшуючи розмір вибірки.

Обчислювальна зручність

Деякі статистичні моделі вважають помилки гауссовими. Це дозволяє розподілу функцій нормальних змінних, таких як хі-квадрат та F-розподіл, використовувати для перевірки гіпотез. Зокрема, у F-тесті статистика F складається із співвідношення розподілів хі-квадрат, які самі є функціями параметра нормальної дисперсії. Співвідношення двох змушує дисперсію відміняти, що дозволяє перевірити гіпотезу без знання дисперсій, крім їх нормальності та сталості.

  • Поділитися
instagram viewer