Le attività aziendali, governative e accademiche richiedono quasi sempre la raccolta e l'analisi dei dati. Uno dei modi per rappresentare i dati numerici è attraverso grafici, istogrammi e tabelle. Queste tecniche di visualizzazione consentono alle persone di ottenere una migliore comprensione dei problemi e ideare soluzioni. Lacune, cluster e valori anomali sono caratteristiche dei set di dati che influenzano l'analisi matematica e sono facilmente visibili sulle rappresentazioni visive.
Buchi nei dati
Le lacune si riferiscono ad aree mancanti in un set di dati. Ad esempio, se un esperimento scientifico raccoglie dati sulla temperatura nell'intervallo di 50 gradi Fahrenheit a 100 gradi Fahrenheit, ma niente tra 70 e 80 gradi, che rappresenterebbe un divario nei dati impostato. Un grafico a linee di questo set di dati avrebbe segni "x" per temperature comprese tra 50 e 70 e di nuovo tra 80 e 100, ma non ci sarebbe nulla tra 70 e 80. I ricercatori possono scavare più a fondo ed esplorare il motivo per cui alcuni punti dati non vengono visualizzati in un campione raccolto.
Gruppi isolati
I cluster sono gruppi isolati di punti dati. I grafici a linee, che sono uno dei modi per rappresentare i set di dati, sono linee con segni "x" posizionati sopra numeri specifici per rappresentare la loro frequenza di occorrenza nel set di dati. Un cluster è rappresentato come una raccolta di questi segni "x" in un piccolo intervallo o sottoinsieme di dati. Ad esempio, se i punteggi dell'esame per una classe di 10 studenti sono 74, 75, 80, 72, 74, 75, 76, 86, 88 e 73, il maggior numero di "x" su un grafico a linee sarebbe nel 72- a-76 intervallo di punteggio. Questo rappresenterebbe un cluster di dati. Nota che la frequenza per 74 e 75 è due, ma per tutti gli altri punteggi è uno.
agli estremi
Gli outlier sono valori estremi: punti dati che si trovano significativamente al di fuori di altri valori in un set di dati. Un valore anomalo deve essere significativamente minore o maggiore della maggior parte dei numeri in un set di dati. La definizione di "estremo" dipende dalla circostanza e dal consenso degli analisti coinvolti nella ricerca. I valori anomali potrebbero essere punti dati errati, noti anche come rumore, oppure potrebbero contenere informazioni preziose sul fenomeno oggetto di indagine e sulla stessa metodologia di raccolta dei dati. Ad esempio, se i punteggi delle classi sono per lo più compresi tra 70 e 80, ma un paio di punteggi sono compresi tra i 50 bassi, questi potrebbero rappresentare valori anomali.
Mettere tutto insieme
Lacune, valori anomali e cluster nei set di dati possono influire sui risultati dell'analisi matematica. Lacune e cluster potrebbero rappresentare errori nella metodologia di raccolta dei dati. Ad esempio, se un sondaggio telefonico rileva solo determinati prefissi, come complessi abitativi a basso reddito o quartieri periferici di fascia alta aree residenziali, e non un'ampia sezione trasversale della popolazione, è probabile che ci saranno lacune e cluster nei dati. I valori anomali possono distorcere il valore medio o medio di un set di dati. Ad esempio, il valore medio o medio di un set di dati composto da quattro numeri - 50, 55, 65 e 90 - è 65. Senza il valore anomalo 90, tuttavia, la media è di circa 57.