Что такое пробелы, кластеры и выбросы в математике?

Деловая, правительственная и академическая деятельность почти всегда требует сбора и анализа данных. Один из способов представления числовых данных - это графики, гистограммы и диаграммы. Эти методы визуализации позволяют людям лучше понимать проблемы и находить решения. Пробелы, кластеры и выбросы - это характеристики наборов данных, которые влияют на математический анализ и легко видны на визуальных представлениях.

Дыры в данных

Пробелы относятся к отсутствующим областям в наборе данных. Например, если в ходе научного эксперимента собираются данные о температуре в диапазоне 50 градусов по Фаренгейту. до 100 градусов по Фаренгейту, но ничего между 70 и 80 градусами, что будет означать пробел в данных набор. Линейный график этого набора данных будет иметь отметки «x» для температур от 50 до 70 и снова от 80 до 100, но не будет ничего между 70 и 80. Исследователи могут копнуть глубже и выяснить, почему определенные точки данных не отображаются в собранной выборке.

Изолированные группы

Кластеры - это изолированные группы точек данных. Линейные графики, которые являются одним из способов представления наборов данных, представляют собой линии со знаком «x», помещенные над определенными числами, чтобы обозначить частоту их появления в наборе данных. Кластер изображается как совокупность этих меток «x» в небольшом интервале или подмножестве данных. Например, если экзаменационные баллы для класса из 10 учеников равны 74, 75, 80, 72, 74, 75, 76, 86, 88 и 73, наибольшее количество отметок «x» на линейном графике будет в 72- до-76 баллов. Это будет представлять собой кластер данных. Обратите внимание, что частота для 74 и 75 равна двум, но для всех остальных оценок - одна.

instagram story viewer

В крайности

Выбросы - это экстремальные значения - точки данных, которые значительно лежат за пределами других значений в наборе данных. Выброс должен быть значительно меньше или больше большинства чисел в наборе данных. Определение «крайнего» зависит от обстоятельств и консенсуса аналитиков, участвующих в исследовании. Выбросы могут быть неверными точками данных, также известными как шум, или они могут содержать ценную информацию об исследуемом явлении и самой методологии сбора данных. Например, если баллы класса в основном находятся в диапазоне от 70 до 80, но несколько баллов находятся в диапазоне 50, они могут представлять собой выбросы.

Собираем все вместе

Пробелы, выбросы и кластеры в наборах данных могут повлиять на результаты математического анализа. Пробелы и кластеры могут представлять собой ошибки в методологии сбора данных. Например, если телефонный опрос опрашивает только определенные коды городов, например, жилые комплексы для малообеспеченных или элитные пригородные районы. жилые районы, а не широкие слои населения, скорее всего, в данных будут пробелы и кластеры. Выбросы могут исказить среднее или среднее значение набора данных. Например, среднее или среднее значение набора данных, состоящего из четырех чисел - 50, 55, 65 и 90 - равно 65. Однако без выброса 90 среднее значение составляет около 57.

Teachs.ru
  • Доля
instagram viewer