Forretnings-, regerings- og akademiske aktiviteter kræver næsten altid indsamling og analyse af data. En af måderne til at repræsentere numeriske data er gennem grafer, histogrammer og diagrammer. Disse visualiseringsteknikker giver folk mulighed for at få bedre indsigt i problemer og udtænke løsninger. Huller, klynger og outliers er karakteristika for datasæt, der påvirker matematisk analyse og er let synlige på visuelle repræsentationer.
Huller i dataene
Huller henviser til manglende områder i et datasæt. For eksempel, hvis et videnskabeligt eksperiment indsamler temperaturdata i området 50 grader Fahrenheit til 100 grader Fahrenheit, men intet mellem 70 og 80 grader, der ville repræsentere et hul i dataene sæt. Et linjediagram for dette datasæt ville have "x" -mærker for temperaturer mellem 50 og 70 og igen mellem 80 og 100, men der ville ikke være noget mellem 70 og 80. Forskere kan grave dybere og undersøge, hvorfor visse datapunkter ikke vises i en samlet prøve.
Isolerede grupper
Klynger er isolerede grupper af datapunkter. Linjediagrammer, som er en af måderne til at repræsentere datasæt, er linjer med "x" -mærker placeret over specifikke tal for at skildre deres hyppighed af forekomst i datasættet. En klynge er afbildet som en samling af disse "x" -mærker i et lille interval eller et datasæt. For eksempel, hvis eksamensresultaterne for en klasse på 10 elever er 74, 75, 80, 72, 74, 75, 76, 86, 88 og 73, vil de fleste "x" -mærker på en linjeplot være i 72- til-76 score interval. Dette repræsenterer en dataklynge. Bemærk, at frekvensen for 74 og 75 er to, men for alle andre scores er den en.
I ekstremiteterne
Outliers er ekstreme værdier - datapunkter, der ligger betydeligt uden for andre værdier i et datasæt. En outlier skal være betydeligt mindre end eller større end størstedelen af numrene i et datasæt. Definitionen af "ekstrem" afhænger af omstændighederne og enighed blandt de analytikere, der er involveret i forskningen. Outliers kan være dårlige datapunkter, også kendt som støj, eller de kan indeholde værdifuld information om det fænomen, der undersøges, og selve dataindsamlingsmetoden. For eksempel, hvis klassescorer for det meste er i området 70 til 80, men et par scoringer er i de lave 50'ere, repræsenterer de måske outliers.
Samler det hele
Huller, afvigelser og klynger i datasæt kan påvirke resultaterne af matematisk analyse. Huller og klynger kan repræsentere fejl i dataindsamlingsmetoden. For eksempel, hvis en telefonundersøgelse kun afstemmer bestemte områdekoder, såsom boligkomplekser med lav indkomst eller high-end forstæder boligområder og ikke et bredt tværsnit af befolkningen, er chancerne for, at der vil være huller og klynger i dataene. Outliers kan skæve middel- eller gennemsnitsværdien af et datasæt. For eksempel er middel- eller gennemsnitsværdien af et datasæt bestående af fire tal - 50, 55, 65 og 90 - 65. Uden outlier 90 er middelværdien dog omkring 57.