Какви са пропуските, клъстерите и отклоненията в математиката?

Бизнесът, държавната и академичната дейност почти винаги изискват събиране и анализ на данни. Един от начините за представяне на числови данни е чрез графики, хистограми и диаграми. Тези техники за визуализация позволяват на хората да получат по-добра представа за проблемите и да измислят решения. Пропуските, клъстерите и отклоненията са характеристики на набори от данни, които влияят на математическия анализ и са лесно видими при визуални представяния.

Дупки в данните

Пропуските се отнасят до липсващи области в набор от данни. Например, ако научен експеримент събира температурни данни в диапазона от 50 градуса по Фаренхайт до 100 градуса по Фаренхайт, но нищо между 70 и 80 градуса, което би представлявало пропуск в данните комплект. Линеен график от този набор от данни ще има маркировки "x" за температури между 50 и 70 и отново между 80 и 100, но няма да има нищо между 70 и 80. Изследователите могат да копаят по-дълбоко и да изследват защо определени точки от данни не се показват в събрана извадка.

Изолирани групи

Клъстерите са изолирани групи от точки с данни. Графичните редове, които са един от начините за представяне на набори от данни, са редове с знаци "x", поставени над конкретни числа, за да изобразят честотата им на поява в набора от данни. Клъстерът е изобразен като колекция от тези знаци "x" в малък интервал или подмножество от данни. Например, ако резултатите от изпита за клас от 10 ученици са 74, 75, 80, 72, 74, 75, 76, 86, 88 и 73, най-много "х" знаци на линейна графика ще бъдат в 72- до-76 интервал от точки. Това би представлявало клъстер от данни. Обърнете внимание, че честотата за 74 и 75 е две, но за всички останали резултати е една.

В крайностите

Крайните стойности са екстремни стойности - точки от данни, които се намират значително извън другите стойности в набор от данни. Отклонението трябва да бъде значително по-малко или по-голямо от по-голямата част от числата в набор от данни. Определението за „крайност“ зависи от обстоятелствата и консенсуса на анализаторите, участващи в изследването. Отклоненията може да са лоши данни, известни също като шум, или да съдържат ценна информация за разследваното явление и самата методология за събиране на данни. Например, ако резултатите от класа са най-вече в диапазона от 70 до 80, но няколко резултата са в ниските 50-те, това може да представлява извънредни стойности.

Слагайки всичко заедно

Пропуските, отклоненията и клъстерите в наборите от данни могат да повлияят на резултатите от математическия анализ. Пропуските и клъстерите могат да представляват грешки в методологията за събиране на данни. Например, ако телефонно проучване анкетира само определени кодове на района, като жилищни комплекси с ниски доходи или крайградски квартали от висок клас жилищни райони, а не широк кръг от население, има вероятност да има пропуски и клъстери в данните. Отклоненията могат да изкривят средната или средната стойност на набор от данни. Например средната или средната стойност на набор от данни, състоящ се от четири числа - 50, 55, 65 и 90 - е 65. Без извънредните 90 обаче средната стойност е около 57.

  • Дял
instagram viewer