Obchodní, vládní a akademické činnosti téměř vždy vyžadují sběr a analýzu údajů. Jedním ze způsobů, jak reprezentovat numerická data, jsou grafy, histogramy a grafy. Tyto vizualizační techniky umožňují lidem získat lepší přehled o problémech a navrhnout řešení. Mezery, shluky a odlehlé hodnoty jsou charakteristiky souborů dat, které ovlivňují matematickou analýzu a jsou snadno viditelné na vizuálních reprezentacích.
Otvory v datech
Mezery se vztahují k chybějícím oblastem v datové sadě. Například pokud vědecký experiment shromažďuje údaje o teplotě v rozmezí 50 stupňů Fahrenheita na 100 stupňů Fahrenheita, ale nic mezi 70 a 80 stupni, což by představovalo mezeru v datech soubor. Čárový graf tohoto souboru dat by měl značky „x“ pro teploty mezi 50 a 70 a znovu mezi 80 a 100, ale mezi 70 a 80 by nic nebylo. Výzkumníci mohou hlouběji prozkoumat a prozkoumat, proč se určité datové body nezobrazují ve shromážděném vzorku.
Izolované skupiny
Klastry jsou izolované skupiny datových bodů. Čárové grafy, které jsou jedním ze způsobů, jak reprezentovat datové sady, jsou řádky se značkami „x“ umístěnými nad určitými čísly, které znázorňují jejich četnost výskytu v datové sadě. Klastr je zobrazen jako kolekce těchto značek „x“ v malém intervalu nebo podmnožině dat. Například pokud jsou výsledky zkoušky pro třídu 10 studentů 74, 75, 80, 72, 74, 75, 76, 86, 88 a 73, nejvíce „x“ bodů na liniovém grafu by bylo v 72- interval skóre 76. To by představovalo datový klastr. Všimněte si, že frekvence pro 74 a 75 jsou dvě, ale pro všechna ostatní skóre je to jedna.
V extrémech
Odlehlé hodnoty jsou extrémní hodnoty - datové body, které leží podstatně mimo jiné hodnoty v datové sadě. Odlehlá hodnota musí být výrazně menší než nebo větší než většina čísel v datové sadě. Definice „extrému“ závisí na okolnostech a konsensu analytiků zapojených do výzkumu. Odlehlé hodnoty mohou být špatné datové body, známé také jako šum, nebo mohou obsahovat cenné informace o vyšetřovaném jevu a samotné metodice sběru dat. Například pokud jsou skóre třídy většinou v rozmezí 70 až 80, ale pár skóre je v nízkých 50. letech, mohou představovat odlehlé hodnoty.
Dáme to dohromady
Mezery, odlehlé hodnoty a shluky v souborech dat mohou ovlivnit výsledky matematické analýzy. Mezery a shluky mohou představovat chyby v metodice sběru dat. Například pokud telefonický průzkum vyžaduje pouze určité předvolby, jako jsou bytové komplexy s nízkými příjmy nebo špičkové předměstí obytné oblasti, a ne široký průřez populace, je pravděpodobné, že v datech budou mezery a shluky. Odlehlé hodnoty mohou zkosit střední nebo průměrnou hodnotu souboru dat. Například průměrná nebo průměrná hodnota souboru dat skládajícího se ze čtyř čísel - 50, 55, 65 a 90 - je 65. Bez odlehlé hodnoty 90 je však průměr asi 57.