Hvordan finne Centroid i en klyngeanalyse

Klyngeanalyse er en metode for å organisere data i representative grupper basert på lignende egenskaper. Hvert medlem av klyngen har mer til felles med andre medlemmer i samme klynge enn med medlemmer i de andre gruppene. Det mest representative punktet i gruppen kalles sentroid. Vanligvis er dette gjennomsnittet av verdiene til datapunktene i klyngen.

Organiser dataene. Hvis dataene består av en enkelt variabel, kan et histogram være aktuelt. Hvis to variabler er involvert, må du tegne dataene i et koordinatplan. For eksempel, hvis du så på høyden og vekten til skolebarn i et klasserom, plott poengene med data for hvert barn på en graf, hvor vekten er den horisontale aksen og høyden er vertikal akser. Hvis mer enn to variabler er involvert, kan det være behov for matriser for å vise dataene.

Gruppere dataene i klynger. Hver klynge skal bestå av datapunktene nærmest den. I høyden og vekteksemplet grupperer du alle datapunkter som ser ut til å ligge tett sammen. Antall klynger, og om hvert datapunkt må være i en klynge, kan avhenge av formålene med studien.

For hver klynge, legg til verdiene til alle medlemmene. For eksempel, hvis en klynge av data besto av punktene (80, 56), (75, 53), (60, 50) og (68,54), ville summen av verdiene være (283, 213).

Del totalen med antall medlemmer i klyngen. I eksemplet ovenfor er 283 delt på fire 70,75, og 213 delt på fire er 53,25, så klyngens midtpunkt er (70,75, 53,25).

Plott klyngesentrroider og avgjør om noen punkter er nærmere en sentroid av en annen klynge enn de er sentroid av sin egen klynge. Hvis noen punkter er nærmere en annen centroid, fordeler du dem til klyngen som inneholder den nærmere centroid.

Gjenta trinn 3, 4 og 5 til alle datapunktene befinner seg i klyngen som inneholder sentrum som de er nærmest.

  • Dele
instagram viewer