Ako nájsť ťažisko v zhlukovej analýze

Klastrová analýza je metóda organizovania údajov do reprezentatívnych skupín na základe podobných charakteristík. Každý člen klastra má viac spoločného s ostatnými členmi rovnakého klastra ako s členmi ostatných skupín. Najreprezentatívnejší bod v skupine sa nazýva ťažisko. Zvyčajne ide o priemer hodnôt bodov údajov v klastri.

Usporiadajte údaje. Ak údaje pozostávajú z jednej premennej, môže byť vhodný histogram. Ak sú zapojené dve premenné, dáta grafujte na súradnicovej rovine. Napríklad, ak ste sa pozerali na výšku a váhu školákov v triede, zakreslite body údaje pre každé dieťa v grafe, pričom váha je vodorovná os a výška je zvislá os. Ak sú zapojené viac ako dve premenné, na zobrazenie údajov môže byť potrebná matica.

Zoskupte údaje do klastrov. Každý klaster by mal pozostávať z bodov údajov, ktoré sú mu najbližšie. V príklade výšky a hmotnosti zoskupte všetky body údajov, ktoré sa zdajú byť blízko seba. Počet klastrov a to, či každý bod údajov musí byť v klastri, môže závisieť od účelu štúdie.

instagram story viewer

Pre každý klaster pridajte hodnoty všetkých členov. Napríklad ak by sa súbor údajov skladal z bodov (80, 56), (75, 53), (60, 50) a (68,54), súčet hodnôt by bol (283, 213).

Celkovú sumu vydelíme počtom členov klastra. V príklade vyššie je 283 vydelených štyrmi 70,75 a 213 vydelených štyrmi 53,25, takže ťažisko zhluku je (70,75, 53,25).

Zostrojte centroidy klastra a určite, či sú niektoré body bližšie k ťažisku iného klastra ako k ťažisku ich vlastného zhluku. Ak sú niektoré body bližšie k inému ťažisku, prerozdeľte ich do klastra obsahujúceho bližší ťažisko.

Opakujte kroky 3, 4 a 5, až kým nebudú všetky body údajov v klastri obsahujúcom ťažisko, ku ktorému sú najbližšie.

Teachs.ru
  • Zdieľam
instagram viewer