Forretnings-, myndighets- og akademiske aktiviteter krever nesten alltid innsamling og analyse av data. En av måtene å representere numeriske data er gjennom grafer, histogrammer og diagrammer. Disse visualiseringsteknikkene lar folk få bedre innsikt i problemer og utvikle løsninger. Hull, klynger og avvik er kjennetegn ved datasett som påvirker matematisk analyse og er lett synlige på visuelle representasjoner.
Hull i dataene
Hull refererer til manglende områder i et datasett. For eksempel, hvis et vitenskapelig eksperiment samler temperaturdata i området 50 grader Fahrenheit til 100 grader Fahrenheit, men ingenting mellom 70 og 80 grader, som ville representere et gap i dataene sett. Et linjediagram for dette datasettet ville ha "x" -merker for temperaturer mellom 50 og 70 og igjen mellom 80 og 100, men det ville ikke være noe mellom 70 og 80. Forskere kan grave dypere og utforske hvorfor visse datapunkter ikke vises i et samlet utvalg.
Isolerte grupper
Klynger er isolerte grupper av datapunkter. Linjediagrammer, som er en av måtene å representere datasett på, er linjer med "x" -merker plassert over spesifikke tall for å skildre deres forekomst i datasettet. En klynge er avbildet som en samling av disse "x" -merkene i et lite intervall eller datasett. For eksempel, hvis eksamenspoengene for en klasse på 10 elever er 74, 75, 80, 72, 74, 75, 76, 86, 88 og 73, vil de fleste "x" -tegnene på en linjeplott være i 72- til-76 poengsum. Dette vil representere en dataklynge. Merk at frekvensen for 74 og 75 er to, men for alle andre poeng er den en.
At the Extremes
Outliers er ekstreme verdier - datapunkter som ligger betydelig utenfor andre verdier i et datasett. En outlier må være betydelig mindre enn eller større enn flertallet av tall i et datasett. Definisjonen av "ekstrem" avhenger av omstendighetene og enighet mellom analytikerne som er involvert i forskningen. Outliers kan være dårlige datapunkter, også kjent som støy, eller de kan inneholde verdifull informasjon om fenomenet som undersøkes og selve datainnsamlingsmetoden. For eksempel, hvis klassescore for det meste ligger i området 70 til 80, men et par poengsum er i de lave 50-årene, kan de representere outliers.
Sette alt sammen
Hull, avvik og klynger i datasett kan påvirke resultatene av matematisk analyse. Hull og klynger kan representere feil i datainnsamlingsmetoden. For eksempel hvis en telefonundersøkelse bare måler bestemte retningsnummer, for eksempel boligkomplekser med lav inntekt eller high-end forstads boligområder, og ikke et bredt tverrsnitt av befolkningen, er sjansen stor for at det vil være hull og klynger i dataene. Outliers kan skjevgjøre middel- eller gjennomsnittsverdien til et datasett. For eksempel er gjennomsnitts- eller gjennomsnittsverdien til et datasett som består av fire tall - 50, 55, 65 og 90 - 65. Uten outlier 90 er imidlertid gjennomsnittet omtrent 57.