Що таке пробіли, кластери та викиди в математиці?

Бізнес, державна та академічна діяльність майже завжди вимагають збору та аналізу даних. Одним із способів представлення числових даних є графіки, гістограми та діаграми. Ці методи візуалізації дозволяють людям краще зрозуміти проблеми та розробити рішення. Прогалини, кластери та викиди - це характеристики наборів даних, які впливають на математичний аналіз і добре помітні на візуальних уявленнях.

Отвори в даних

Прогалини стосуються відсутніх областей у наборі даних. Наприклад, якщо науковий експеримент збирає дані про температуру в межах 50 градусів за Фаренгейтом до 100 градусів за Фаренгейтом, але нічого між 70 і 80 градусами, що представляло б прогалину в даних встановити. Лінійний графік цього набору даних буде мати позначки "х" для температур від 50 до 70 і знову від 80 до 100, але між 70 і 80 не буде нічого. Дослідники можуть копати глибше та досліджувати, чому певні дані не відображаються у зібраній вибірці.

Ізольовані групи

Кластери - це окремі групи точок даних. Діаграми рядків, які є одним із способів представити набори даних, - це рядки з позначками "x", розміщені над певними числами, щоб зобразити їх частоту зустрічальності у наборі даних. Кластер зображений як сукупність цих знаків "х" у невеликому інтервалі або підмножині даних. Наприклад, якщо оцінки іспиту для класу з 10 учнів складають 74, 75, 80, 72, 74, 75, 76, 86, 88 та 73, найбільше позначок "х" на лінійному графіку буде в 72- інтервал оцінок до-76. Це представляло б кластер даних. Зверніть увагу, що частота для 74 і 75 - дві, але для всіх інших балів - одна.

На крайнощах

Викиди - це крайні значення - точки даних, які знаходяться значно поза межами інших значень у наборі даних. Відхилення повинно бути значно меншим або більшим за більшість чисел у наборі даних. Визначення поняття "крайність" залежить від обставин та консенсусу аналітиків, які беруть участь у дослідженні. Викиди можуть бути поганими точками даних, також відомими як шум, або вони можуть містити цінну інформацію про досліджуване явище та саму методологію збору даних. Наприклад, якщо оцінки класів переважно знаходяться в діапазоні від 70 до 80, але пара балів - у низьких 50-х, це може представляти відхилення.

Склавши все разом

Прогалини, викиди та кластери в наборах даних можуть вплинути на результати математичного аналізу. Прогалини та кластери можуть представляти помилки в методології збору даних. Наприклад, якщо телефонне опитування опитує лише певні телефонні коди, наприклад, житлові комплекси з низьким рівнем доходу або приміські будинки високого класу житлові райони, а не широкий переріз населення, швидше за все, будуть дані прогалини та скупчення даних. Викиди можуть перекосити середнє або середнє значення набору даних. Наприклад, середнє або середнє значення набору даних, що складається з чотирьох чисел - 50, 55, 65 та 90 - дорівнює 65. Однак без відхилення 90 середнє значення становить близько 57.

  • Поділитися
instagram viewer