Jak znaleźć środek ciężkości w analizie skupień

Analiza skupień to metoda organizowania danych w reprezentatywne grupy na podstawie podobnych cech. Każdy członek klastra ma więcej wspólnego z innymi członkami tego samego klastra niż z członkami innych grup. Najbardziej reprezentatywny punkt w grupie nazywa się centroidem. Zwykle jest to średnia z wartości punktów danych w skupieniu.

Uporządkuj dane. Jeśli dane składają się z jednej zmiennej, odpowiedni może być histogram. Jeśli zaangażowane są dwie zmienne, narysuj dane na płaszczyźnie współrzędnych. Na przykład, jeśli patrzyłeś na wzrost i wagę dzieci w wieku szkolnym w klasie, wykreśl punkty dane dla każdego dziecka na wykresie, gdzie waga jest osią poziomą, a wysokość pionową oś. Jeśli zaangażowane są więcej niż dwie zmienne, do wyświetlenia danych mogą być potrzebne macierze.

Pogrupuj dane w klastry. Każdy klaster powinien składać się z najbliższych mu punktów danych. W przykładzie dotyczącym wzrostu i wagi pogrupuj wszystkie punkty danych, które wydają się być blisko siebie. Liczba klastrów i to, czy każdy punkt danych musi znajdować się w klastrze, może zależeć od celów badania.

instagram story viewer

Dla każdego klastra dodaj wartości wszystkich członków. Na przykład, jeśli klaster danych składa się z punktów (80, 56), (75, 53), (60, 50) i (68,54), suma wartości wyniesie (283, 213).

Podziel sumę przez liczbę członków klastra. W powyższym przykładzie 283 podzielone przez cztery to 70,75, a 213 podzielone przez cztery to 53,25, więc środek ciężkości klastra to (70,75, 53,25).

Narysuj centroidy klastrów i określ, czy jakiekolwiek punkty znajdują się bliżej centroidu innego klastra niż centroidu własnego klastra. Jeśli jakiekolwiek punkty znajdują się bliżej innego centroidu, rozprowadź je ponownie do klastra zawierającego bliższy centroid.

Powtarzaj kroki 3, 4 i 5, aż wszystkie punkty danych znajdą się w klastrze zawierającym środek ciężkości, do którego są najbliżej.

Teachs.ru
  • Dzielić
instagram viewer