Poslovne, vladne in akademske dejavnosti skoraj vedno zahtevajo zbiranje in analizo podatkov. Eden od načinov predstavitve numeričnih podatkov je prek grafov, histogramov in diagramov. Te tehnike vizualizacije ljudem omogočajo boljši vpogled v probleme in oblikovanje rešitev. Vrzeli, grozdi in odstopanja so značilnosti naborov podatkov, ki vplivajo na matematično analizo in so zlahka vidni na vizualnih predstavitvah.
Luknje v podatkih
Vrzeli se nanašajo na manjkajoča območja v naboru podatkov. Na primer, če znanstveni eksperiment zbira podatke o temperaturi v območju od 50 stopinj Celzija do 100 stopinj Celzija, vendar nič med 70 in 80 stopinjami, kar bi predstavljalo vrzel v podatkih nastavite. Črtna črta tega nabora podatkov bi imela oznake "x" za temperature med 50 in 70 in spet med 80 in 100, vendar med 70 in 80 ne bi bilo ničesar. Raziskovalci se lahko poglobijo in raziščejo, zakaj se določene podatkovne točke ne prikažejo v zbranem vzorcu.
Izolirane skupine
Grozdi so izolirane skupine podatkovnih točk. Diagrami vrstic, ki so eden od načinov predstavitve naborov podatkov, so vrstice z znaki "x", postavljenimi nad določene številke, da prikažejo njihovo pogostost pojavljanja v naboru podatkov. Grozd je upodobljen kot zbirka teh oznak "x" v majhnem intervalu ali podmnožici podatkov. Če so na primer ocene izpita za razred 10 študentov 74, 75, 80, 72, 74, 75, 76, 86, 88 in 73, bi bilo največ znakov "x" na premici v 72- interval do 76 točk. To bi predstavljalo podatkovno skupino. Upoštevajte, da je frekvenca za 74 in 75 dve, za vse ostale rezultate pa ena.
V skrajnostih
Izstopajoče vrednosti so skrajne vrednosti - podatkovne točke, ki ležijo bistveno zunaj drugih vrednosti v naboru podatkov. Izstopajoči mora biti bistveno manjši ali večji od večine števil v naboru podatkov. Opredelitev pojma "skrajnost" je odvisna od okoliščin in soglasja analitikov, vključenih v raziskavo. Izstopajoče točke so lahko slabe podatkovne točke, znane tudi kot hrup, ali pa vsebujejo dragocene informacije o preiskovanem pojavu in sami metodologiji zbiranja podatkov. Na primer, če so ocene razredov večinoma v razponu od 70 do 80, nekaj točk pa v spodnjih 50-ih, bi to lahko predstavljalo odstopanja.
Vse skupaj
Vrzeli, odstopanja in grozdi v naborih podatkov lahko vplivajo na rezultate matematične analize. Vrzeli in grozdi lahko predstavljajo napake v metodologiji zbiranja podatkov. Na primer, če telefonska anketa anketira samo nekatere področne kode, na primer stanovanjske komplekse z nizkimi dohodki ali primestna naselja visoke kategorije stanovanjska območja in ne širok prerez prebivalstva, verjetno obstajajo vrzeli in grozdi v podatkih. Izstopajoče vrednosti lahko izkrivijo srednjo ali povprečno vrednost nabora podatkov. Na primer, povprečna ali povprečna vrednost nabora podatkov, sestavljenega iz štirih številk - 50, 55, 65 in 90 - je 65. Brez odstopanja 90 pa je povprečje približno 57.