Kako najti centroid v analizi grozdenja

Grozdna analiza je metoda organiziranja podatkov v reprezentativne skupine na podlagi podobnih značilnosti. Vsak član gruče ima več skupnega z drugimi člani iste gruče kot s člani drugih skupin. Najbolj reprezentativna točka v skupini se imenuje centroid. Običajno je to povprečje vrednosti točk podatkov v gruči.

Organizirajte podatke. Če so podatki sestavljeni iz ene spremenljivke, je morda primeren histogram. Če gre za dve spremenljivki, grafizirajte podatke na koordinatni ravnini. Če ste na primer v učilnici gledali višino in težo šolskih otrok, narišite točke podatke za vsakega otroka na grafu, pri čemer je teža vodoravna os, višina pa navpična os. Če gre za več kot dve spremenljivki, bodo morda potrebne matrice za prikaz podatkov.

Podatke združite v skupine. Vsaka grozd naj vsebuje najbližje točke podatkov. V primeru višine in teže zberite vse točke podatkov, ki se zdijo blizu. Število grozdov in to, ali mora biti vsaka točka podatkov v grozdu, je lahko odvisno od namena študije.

Za vsako skupino dodajte vrednosti vseh članov. Če bi na primer skupino podatkov sestavljale točke (80, 56), (75, 53), (60, 50) in (68,54), bi bila vsota vrednosti (283, 213).

Skupno število delite s številom članov grozda. V zgornjem primeru je 283, deljeno s štirimi, 70,75, 213, deljeno s štirimi, pa 53,25, torej je težišče kopice (70,75, 53,25).

Narišite centroide gruče in ugotovite, ali so katere točke bližje centroidu druge gruče kot centroidu lastne gruče. Če so katere koli točke bližje drugemu centroidu, jih prerazporedite v skupino, ki vsebuje bližnji centroid.

Ponavljajte korake 3, 4 in 5, dokler se vse točke podatkov ne nahajajo v gruči, ki vsebuje centroid, kateremu so najbližje.

  • Deliti
instagram viewer