Jak najít těžiště ve shlukové analýze

Klastrová analýza je metoda organizace dat do reprezentativních skupin na základě podobných charakteristik. Každý člen klastru má více společného s ostatními členy stejného klastru než s členy ostatních skupin. Nejreprezentativnější bod ve skupině se nazývá těžiště. Obvykle se jedná o průměr hodnot hodnot datových bodů v klastru.

Uspořádejte data. Pokud se data skládají z jedné proměnné, může být vhodný histogram. Pokud jsou zahrnuty dvě proměnné, vytvořte graf dat na rovině souřadnic. Pokud jste se například dívali na výšku a váhu školních dětí ve třídě, zakreslete body údaje o každém dítěti v grafu, přičemž váha je vodorovná osa a výška je svislá osa. Pokud jsou zahrnuty více než dvě proměnné, může být pro zobrazení dat potřeba matice.

Seskupte data do klastrů. Každý klastr by měl sestávat z nejbližších datových bodů. V příkladu výšky a hmotnosti seskupte všechny datové body, které se zdají být blízko u sebe. Počet klastrů a to, zda každý bod dat musí být v klastru, může záviset na účelech studie.

instagram story viewer

Pro každý klastr přidejte hodnoty všech členů. Pokud by se například soubor dat skládal z bodů (80, 56), (75, 53), (60, 50) a (68,54), součet hodnot by byl (283, 213).

Vydělte celkem počtem členů klastru. Ve výše uvedeném příkladu je 283 děleno čtyřmi 70,75 a 213 děleno čtyřmi je 53,25, takže těžiště klastru je (70,75, 53,25).

Vyneste centroidy klastru a určete, zda jsou některé body blíže k těžišti jiného klastru než k těžišti jejich vlastního klastru. Pokud jsou některé body blíže k jinému těžišti, přerozdělte je do klastru obsahujícího bližší těžiště.

Opakujte kroky 3, 4 a 5, dokud nejsou všechny body dat v klastru obsahujícím těžiště, ke kterému jsou nejblíže.

Teachs.ru
  • Podíl
instagram viewer