Was sind Lücken, Cluster und Ausreißer in der Mathematik?

Geschäftliche, staatliche und akademische Aktivitäten erfordern fast immer die Sammlung und Analyse von Daten. Eine Möglichkeit, numerische Daten darzustellen, sind Grafiken, Histogramme und Diagramme. Diese Visualisierungstechniken ermöglichen es Menschen, einen besseren Einblick in Probleme zu gewinnen und Lösungen zu entwickeln. Lücken, Cluster und Ausreißer sind Merkmale von Datensätzen, die die mathematische Analyse beeinflussen und in visuellen Darstellungen leicht sichtbar sind.

Löcher in den Daten

Lücken beziehen sich auf fehlende Bereiche in einem Datensatz. Wenn beispielsweise ein wissenschaftliches Experiment Temperaturdaten im Bereich von 50 Grad Fahrenheit sammelt auf 100 Grad Fahrenheit, aber nichts zwischen 70 und 80 Grad, was eine Datenlücke darstellen würde einstellen. Ein Liniendiagramm dieses Datensatzes hätte "x"-Markierungen für Temperaturen zwischen 50 und 70 und wieder zwischen 80 und 100, aber zwischen 70 und 80 wäre nichts. Forscher können tiefer graben und untersuchen, warum bestimmte Datenpunkte in einer gesammelten Stichprobe nicht auftauchen.

Isolierte Gruppen

Cluster sind isolierte Gruppen von Datenpunkten. Liniendiagramme, die eine der Möglichkeiten zur Darstellung von Datensätzen sind, sind Linien mit "x"-Markierungen über bestimmten Zahlen, um ihre Häufigkeit im Datensatz darzustellen. Ein Cluster wird als eine Sammlung dieser "x"-Markierungen in einem kleinen Intervall oder einer Datenteilmenge dargestellt. Wenn die Prüfungsergebnisse für eine Klasse von 10 Schülern beispielsweise 74, 75, 80, 72, 74, 75, 76, 86, 88 und 73 betragen, würden die meisten "x"-Punkte in einem Liniendiagramm in den 72- bis 76 Punkteintervall. Dies würde einen Datencluster darstellen. Beachten Sie, dass die Häufigkeit für 74 und 75 zwei beträgt, für alle anderen Werte jedoch eins.

An den Extremen

Ausreißer sind Extremwerte – Datenpunkte, die deutlich außerhalb anderer Werte in einem Datensatz liegen. Ein Ausreißer muss deutlich kleiner oder größer als die Mehrheit der Zahlen in einem Datensatz sein. Die Definition von "extrem" hängt von den Umständen und einem Konsens der an der Untersuchung beteiligten Analysten ab. Ausreißer können fehlerhafte Datenpunkte sein, die auch als Rauschen bezeichnet werden, oder sie können wertvolle Informationen über das untersuchte Phänomen und die Datenerhebungsmethodik selbst enthalten. Wenn zum Beispiel die Klassennoten meistens im Bereich von 70 bis 80 liegen, einige Punkte jedoch im unteren Bereich von 50 liegen, können dies Ausreißer darstellen.

Alles zusammenfügen

Lücken, Ausreißer und Cluster in Datensätzen können die Ergebnisse mathematischer Analysen beeinflussen. Lücken und Cluster können Fehler in der Methodik der Datenerhebung darstellen. Wenn beispielsweise bei einer telefonischen Umfrage nur bestimmte Vorwahlen abgefragt werden, wie etwa Wohnanlagen mit niedrigem Einkommen oder gehobene Vorstadt Wohngebiete und nicht ein breiter Querschnitt der Bevölkerung, besteht die Möglichkeit, dass es Lücken und Cluster in den Daten gibt. Ausreißer können den Mittel- oder Durchschnittswert eines Datensatzes verzerren. Der Mittel- oder Durchschnittswert eines Datensatzes, der aus vier Zahlen besteht – 50, 55, 65 und 90 – beträgt beispielsweise 65. Ohne den Ausreißer 90 beträgt der Mittelwert jedoch etwa 57.

  • Teilen
instagram viewer