Οι επιχειρηματικές, κυβερνητικές και ακαδημαϊκές δραστηριότητες απαιτούν σχεδόν πάντα τη συλλογή και ανάλυση δεδομένων. Ένας από τους τρόπους αναπαραγωγής αριθμητικών δεδομένων είναι μέσω γραφημάτων, ιστογραμμάτων και διαγραμμάτων. Αυτές οι τεχνικές οπτικοποίησης επιτρέπουν στους ανθρώπους να αποκτήσουν καλύτερη εικόνα για τα προβλήματα και να επινοήσουν λύσεις. Τα κενά, οι συστάδες και τα ακραία σημεία είναι χαρακτηριστικά των συνόλων δεδομένων που επηρεάζουν τη μαθηματική ανάλυση και είναι άμεσα ορατά στις οπτικές αναπαραστάσεις.
Τρύπες στα δεδομένα
Τα κενά αναφέρονται σε περιοχές που λείπουν σε ένα σύνολο δεδομένων. Για παράδειγμα, εάν ένα επιστημονικό πείραμα συλλέγει δεδομένα θερμοκρασίας στην περιοχή των 50 βαθμών Φαρενάιτ έως 100 βαθμούς Φαρενάιτ, αλλά τίποτα μεταξύ 70 και 80 βαθμών, που θα αντιπροσωπεύει ένα κενό στα δεδομένα σειρά. Μια γραφική παράσταση αυτού του συνόλου δεδομένων θα έχει σημάδια "x" για θερμοκρασίες μεταξύ 50 και 70 και πάλι μεταξύ 80 και 100, αλλά δεν θα υπάρχει τίποτα μεταξύ 70 και 80. Οι ερευνητές μπορούν να σκάψουν βαθύτερα και να διερευνήσουν γιατί ορισμένα σημεία δεδομένων δεν εμφανίζονται σε ένα συλλεγμένο δείγμα.
Απομονωμένες ομάδες
Οι συστάδες είναι απομονωμένες ομάδες σημείων δεδομένων. Τα γραφήματα γραμμής, που είναι ένας από τους τρόπους για την αναπαράσταση συνόλων δεδομένων, είναι γραμμές με σήματα "x" τοποθετημένα πάνω από συγκεκριμένους αριθμούς για να απεικονίσουν τη συχνότητα εμφάνισής τους στο σύνολο δεδομένων. Ένα σύμπλεγμα απεικονίζεται ως συλλογή αυτών των σημείων "x" σε μικρό διάστημα ή υποσύνολο δεδομένων. Για παράδειγμα, εάν οι βαθμολογίες των εξετάσεων για μια τάξη 10 μαθητών είναι 74, 75, 80, 72, 74, 75, 76, 86, 88 και 73, τα περισσότερα "x" σημάδια σε μια γραμμή γραφής θα ήταν στο 72- έως-76 διάστημα βαθμολογίας. Αυτό θα αντιπροσωπεύει ένα σύμπλεγμα δεδομένων. Σημειώστε ότι η συχνότητα για 74 και 75 είναι δύο, αλλά για όλες τις άλλες βαθμολογίες, είναι μία.
Στα Extremes
Οι ακραίες τιμές είναι ακραίες τιμές - σημεία δεδομένων που βρίσκονται σημαντικά έξω από άλλες τιμές σε ένα σύνολο δεδομένων. Ένα ακραίο σημείο πρέπει να είναι σημαντικά μικρότερο ή μεγαλύτερο από την πλειονότητα των αριθμών σε ένα σύνολο δεδομένων. Ο ορισμός του «ακραίου» εξαρτάται από την περίσταση και τη συναίνεση των αναλυτών που συμμετέχουν στην έρευνα. Τα ακραία σημεία ενδέχεται να είναι κακά σημεία δεδομένων, γνωστά και ως θόρυβος, ή μπορεί να περιέχουν πολύτιμες πληροφορίες σχετικά με το φαινόμενο που διερευνάται και τη μεθοδολογία συλλογής δεδομένων. Για παράδειγμα, εάν οι βαθμολογίες τάξης κυμαίνονται κυρίως στο εύρος 70 έως 80, αλλά μερικές βαθμολογίες βρίσκονται στα χαμηλά της δεκαετίας του '50, αυτές μπορεί να αντιπροσωπεύουν outliers.
Βάζοντας τα όλα μαζί
Τα κενά, τα ακραία σημεία και οι συστάδες στα σύνολα δεδομένων μπορούν να επηρεάσουν τα αποτελέσματα της μαθηματικής ανάλυσης. Τα κενά και οι συστάδες ενδέχεται να αντιπροσωπεύουν σφάλματα στη μεθοδολογία συλλογής δεδομένων. Για παράδειγμα, εάν μια τηλεφωνική έρευνα κάνει δημοσκοπήσεις μόνο ορισμένους κωδικούς περιοχής, όπως συγκροτήματα κατοικιών χαμηλού εισοδήματος ή προαστιακό κατοικημένες περιοχές, και όχι μια ευρεία διατομή του πληθυσμού, υπάρχουν πιθανότητες να υπάρχουν κενά και συστάδες στα δεδομένα. Το Outliers μπορεί να παρακάμψει τη μέση ή μέση τιμή ενός συνόλου δεδομένων. Για παράδειγμα, η μέση ή μέση τιμή ενός συνόλου δεδομένων που αποτελείται από τέσσερις αριθμούς - 50, 55, 65 και 90 - είναι 65. Χωρίς το outlier 90, ο μέσος όρος είναι περίπου 57.