Obchodné, vládne a akademické činnosti takmer vždy vyžadujú zber a analýzu údajov. Jedným zo spôsobov, ako reprezentovať číselné údaje, sú grafy, histogramy a tabuľky. Tieto vizualizačné techniky umožňujú ľuďom získať lepší prehľad o problémoch a navrhnúť riešenia. Medzery, zhluky a odľahlé hodnoty sú charakteristikami súborov údajov, ktoré ovplyvňujú matematickú analýzu a sú ľahko viditeľné na vizuálnych znázorneniach.
Diery v dátach
Medzery sa týkajú chýbajúcich oblastí v súbore údajov. Napríklad, ak vedecký experiment zhromažďuje údaje o teplote v rozmedzí 50 stupňov Fahrenheita do 100 stupňov Fahrenheita, ale nič medzi 70 a 80 stupňami, čo by predstavovalo medzeru v dátach nastaviť. Čiarový graf tohto súboru údajov by mal značky „x“ pre teploty medzi 50 a 70 a znova medzi 80 a 100, ale medzi 70 a 80 by nebolo nič. Vedci môžu pátrať hlbšie a preskúmať, prečo sa určité údajové body nezobrazia v zhromaždenej vzorke.
Izolované skupiny
Klastre sú izolované skupiny údajových bodov. Čiastkové grafy, ktoré sú jedným zo spôsobov, ako reprezentovať súbory údajov, sú čiary so značkami „x“ umiestnené nad konkrétnymi číslami, ktoré znázorňujú ich frekvenciu výskytu v súbore údajov. Klaster je zobrazený ako súbor týchto značiek „x“ v malom intervale alebo podmnožine údajov. Napríklad ak sú výsledky skúšky pre triedu 10 študentov 74, 75, 80, 72, 74, 75, 76, 86, 88 a 73, najviac znakov „x“ na čiarovom grafe by bolo v 72- interval skóre až 76. To by predstavovalo klaster údajov. Všimnite si, že frekvencia pre 74 a 75 je dve, ale pre všetky ostatné skóre je to jedna.
V extrémoch
Odľahlé hodnoty sú extrémne hodnoty - dátové body, ktoré ležia výrazne mimo iných hodnôt v množine údajov. Odľahlá hodnota musí byť podstatne menšia alebo väčšia ako väčšina čísel v súbore údajov. Definícia „extrému“ závisí od okolností a konsenzu analytikov zapojených do výskumu. Odľahlé hodnoty môžu byť zlé dátové body, tiež známe ako šum, alebo môžu obsahovať cenné informácie o vyšetrovanom jave a samotnej metodike zhromažďovania údajov. Napríklad ak sú skóre triedy väčšinou v rozmedzí 70 až 80, ale pár skóre je v nízkych 50. rokoch, mohli by predstavovať odľahlé hodnoty.
Dávať to všetko dokopy
Medzery, odľahlé hodnoty a zhluky v súboroch údajov môžu mať vplyv na výsledky matematickej analýzy. Medzery a zhluky môžu predstavovať chyby v metodike zhromažďovania údajov. Napríklad, ak sa v rámci telefonického prieskumu uskutočňujú prieskumy iba niektorých smerových čísel, ako sú bytové komplexy s nízkym príjmom alebo špičkové predmestia obytné oblasti, a nie široký prierez obyvateľstva, je pravdepodobné, že v údajoch budú medzery a zhluky. Odľahlé hodnoty môžu skresliť priemernú alebo priemernú hodnotu súboru údajov. Napríklad priemerná alebo priemerná hodnota súboru údajov pozostávajúceho zo štyroch čísel - 50, 55, 65 a 90 - je 65. Bez odľahlej hodnoty 90 je však priemer asi 57.