Bedrijfs-, overheids- en academische activiteiten vereisen bijna altijd het verzamelen en analyseren van gegevens. Een van de manieren om numerieke gegevens weer te geven is door middel van grafieken, histogrammen en grafieken. Met deze visualisatietechnieken kunnen mensen beter inzicht krijgen in problemen en oplossingen bedenken. Hiaten, clusters en uitbijters zijn kenmerken van datasets die de wiskundige analyse beïnvloeden en gemakkelijk zichtbaar zijn op visuele representaties.
Gaten in de gegevens
Hiaten verwijzen naar ontbrekende gebieden in een dataset. Als een wetenschappelijk experiment bijvoorbeeld temperatuurgegevens verzamelt in het bereik van 50 graden Fahrenheit tot 100 graden Fahrenheit, maar niets tussen 70 en 80 graden, dat zou een gat in de gegevens betekenen instellen. Een lijngrafiek van deze dataset zou "x"-markeringen hebben voor temperaturen tussen 50 en 70 en opnieuw tussen 80 en 100, maar er zou niets zijn tussen 70 en 80. Onderzoekers kunnen dieper graven en onderzoeken waarom bepaalde datapunten niet voorkomen in een verzameld monster.
Geïsoleerde groepen
Clusters zijn geïsoleerde groepen gegevenspunten. Lijnplots, een van de manieren om datasets weer te geven, zijn lijnen met "x"-tekens die boven specifieke getallen zijn geplaatst om hun frequentie van voorkomen in de dataset weer te geven. Een cluster wordt afgebeeld als een verzameling van deze "x"-markeringen in een klein interval of gegevenssubset. Als de examenscores voor een klas van 10 studenten bijvoorbeeld 74, 75, 80, 72, 74, 75, 76, 86, 88 en 73 zijn, zouden de meeste "x"-tekens op een lijnplot in de 72- tot-76 score-interval. Dit zou een gegevenscluster vertegenwoordigen. Merk op dat de frequentie voor 74 en 75 twee is, maar voor alle andere scores is het één.
Bij de uitersten
Uitschieters zijn extreme waarden -- gegevenspunten die aanzienlijk buiten andere waarden in een gegevensset liggen. Een uitbijter moet aanzienlijk kleiner of groter zijn dan de meerderheid van de getallen in een dataset. De definitie van "extreem" hangt af van de omstandigheden en een consensus van de bij het onderzoek betrokken analisten. Uitschieters kunnen slechte datapunten zijn, ook wel ruis genoemd, of ze kunnen waardevolle informatie bevatten over het fenomeen dat wordt onderzocht en de methode voor het verzamelen van gegevens zelf. Als klassenscores bijvoorbeeld meestal in het bereik van 70 tot 80 liggen, maar een paar scores in de lage 50, kunnen dat uitschieters zijn.
Alles bij elkaar zetten
Hiaten, uitbijters en clusters in datasets kunnen de resultaten van wiskundige analyse beïnvloeden. Hiaten en clusters kunnen fouten in de methode voor het verzamelen van gegevens vertegenwoordigen. Als een telefonische enquête bijvoorbeeld alleen bepaalde netnummers opvraagt, zoals wooncomplexen met een laag inkomen of high-end voorstedelijke woonwijken, en niet een brede dwarsdoorsnede van de bevolking, is de kans groot dat er hiaten en clusters in de gegevens zullen zijn. Uitbijters kunnen de gemiddelde of gemiddelde waarde van een dataset scheeftrekken. De gemiddelde of gemiddelde waarde van een dataset bestaande uit vier getallen -- 50, 55, 65 en 90 -- is bijvoorbeeld 65. Zonder de uitbijter 90 is het gemiddelde echter ongeveer 57.