Kā atrast Centroid klasterizācijas analīzē

Klasteru analīze ir metode datu sakārtošanai reprezentatīvās grupās, pamatojoties uz līdzīgām īpašībām. Katram klastera dalībniekam ir vairāk kopīga ar citiem tās pašas kopas dalībniekiem nekā ar citu grupu dalībniekiem. Reprezentatīvākais punkts grupas ietvaros tiek saukts par centroidu. Parasti tas ir kopas datu punktu vērtību vidējais lielums.

Sakārtojiet datus. Ja datus veido viens mainīgais, var būt piemērota histogramma. Ja ir iesaistīti divi mainīgie, uzzīmējiet datus koordinātu plaknē. Piemēram, ja klasē skatījāties uz skolas bērnu augumu un svaru, uzzīmējiet punktus dati par katru bērnu grafikā, kur svars ir horizontālā ass un augstums ir vertikāls ass. Ja ir iesaistīti vairāk nekā divi mainīgie, datu parādīšanai var būt nepieciešamas matricas.

Grupējiet datus grupās. Katram klasterim jāsastāv no tam tuvākajiem datu punktiem. Auguma un svara piemērā sagrupējiet visus datu punktus, kas, šķiet, atrodas tuvu viens otram. Klasteru skaits un tas, vai katram datu punktam jāatrodas klasterī, var būt atkarīgs no pētījuma mērķiem.

Katram kopam pievienojiet visu dalībnieku vērtības. Piemēram, ja datu kopu veidotu punkti (80, 56), (75, 53), (60, 50) un (68,54), vērtību summa būtu (283, 213).

Daliet kopsummu ar kopas dalībnieku skaitu. Iepriekš minētajā piemērā 283 dalīts ar četriem ir 70,75, bet 213 dalīts ar četriem ir 53,25, tātad kopas centroidā daļa ir (70,75, 53,25).

Uzzīmējiet kopas centrālos centrus un nosakiet, vai kādi punkti ir tuvāk citas kopas centroidam nekā viņu pašu kopas centrroidam. Ja kādi punkti atrodas tuvāk citam centroidam, pārdaliet tos kopai, kurā atrodas tuvāk esošais centroid.

Atkārtojiet 3., 4. un 5. darbību, līdz visi datu punkti atrodas klasterī, kurā atrodas centrālis, kuram tie ir vistuvāk.

  • Dalīties
instagram viewer