So finden Sie den Schwerpunkt in einer Clusteranalyse

Die Clusteranalyse ist eine Methode zum Organisieren von Daten in repräsentative Gruppen basierend auf ähnlichen Merkmalen. Jedes Mitglied des Clusters hat mehr Gemeinsamkeiten mit anderen Mitgliedern desselben Clusters als mit Mitgliedern der anderen Gruppen. Der repräsentativste Punkt innerhalb der Gruppe wird als Schwerpunkt bezeichnet. Normalerweise ist dies der Mittelwert der Werte der Datenpunkte im Cluster.

Organisieren Sie die Daten. Wenn die Daten aus einer einzelnen Variablen bestehen, kann ein Histogramm angemessen sein. Wenn zwei Variablen beteiligt sind, zeichnen Sie die Daten auf einer Koordinatenebene. Wenn Sie beispielsweise die Größe und das Gewicht von Schulkindern in einem Klassenzimmer betrachten, zeichnen Sie die Punkte von Daten für jedes Kind in einer Grafik, wobei das Gewicht die horizontale Achse und die Höhe die vertikale ist Achse. Wenn mehr als zwei Variablen beteiligt sind, werden möglicherweise Matrizen benötigt, um die Daten anzuzeigen.

Gruppieren Sie die Daten in Cluster. Jeder Cluster sollte aus den ihm am nächsten liegenden Datenpunkten bestehen. Gruppieren Sie im Beispiel für Größe und Gewicht alle Datenpunkte, die nahe beieinander zu liegen scheinen. Die Anzahl der Cluster und ob sich jeder Datenpunkt in einem Cluster befinden muss, kann vom Zweck der Studie abhängen.

Fügen Sie für jeden Cluster die Werte aller Mitglieder hinzu. Wenn ein Datencluster beispielsweise aus den Punkten (80, 56), (75, 53), (60, 50) und (68,54) besteht, wäre die Summe der Werte (283, 213).

Teilen Sie die Summe durch die Anzahl der Mitglieder des Clusters. Im obigen Beispiel ist 283 geteilt durch vier 70,75 und 213 geteilt durch vier ist 53,25, also ist der Schwerpunkt des Clusters (70,75, 53,25).

Zeichnen Sie die Clusterschwerpunkte und bestimmen Sie, ob Punkte näher an einem Schwerpunkt eines anderen Clusters liegen als am Schwerpunkt ihres eigenen Clusters. Wenn Punkte näher an einem anderen Schwerpunkt liegen, verteilen Sie sie auf den Cluster, der den näheren Schwerpunkt enthält.

Wiederholen Sie die Schritte 3, 4 und 5, bis sich alle Datenpunkte in dem Cluster befinden, der den Schwerpunkt enthält, dem sie am nächsten sind.

  • Teilen
instagram viewer