Comment trouver le centroïde dans une analyse de clustering

L'analyse typologique est une méthode d'organisation des données en groupes représentatifs en fonction de caractéristiques similaires. Chaque membre du cluster a plus en commun avec les autres membres du même cluster qu'avec les membres des autres groupes. Le point le plus représentatif au sein du groupe est appelé le centroïde. Habituellement, il s'agit de la moyenne des valeurs des points de données dans le cluster.

Organisez les données. Si les données consistent en une seule variable, un histogramme peut être approprié. Si deux variables sont impliquées, tracez les données sur un plan de coordonnées. Par exemple, si vous regardez la taille et le poids des écoliers dans une salle de classe, tracez les points de données pour chaque enfant sur un graphique, avec le poids étant l'axe horizontal et la taille étant la verticale axe. Si plus de deux variables sont impliquées, des matrices peuvent être nécessaires pour afficher les données.

Regroupez les données en clusters. Chaque cluster doit être constitué des points de données les plus proches de lui. Dans l'exemple de taille et de poids, regroupez tous les points de données qui semblent être proches les uns des autres. Le nombre de clusters, et si chaque point de données doit être dans un cluster, peut dépendre des objectifs de l'étude.

instagram story viewer

Pour chaque cluster, ajoutez les valeurs de tous les membres. Par exemple, si un groupe de données se composait des points (80, 56), (75, 53), (60, 50) et (68, 54), la somme des valeurs serait (283, 213).

Divisez le total par le nombre de membres du cluster. Dans l'exemple ci-dessus, 283 divisé par quatre est 70,75 et 213 divisé par quatre est 53,25, donc le centroïde du cluster est (70,75, 53,25).

Tracez les centroïdes des clusters et déterminez si des points sont plus proches du centroïde d'un autre cluster qu'ils ne le sont du centroïde de leur propre cluster. Si des points sont plus proches d'un centroïde différent, redistribuez-les au cluster contenant le centroïde le plus proche.

Répétez les étapes 3, 4 et 5 jusqu'à ce que tous les points de données se trouvent dans le cluster contenant le centroïde dont ils sont les plus proches.

Teachs.ru
  • Partager
instagram viewer