Kaip rasti „Centroid“ grupių analizėje

Klasterinė analizė yra duomenų organizavimo į reprezentatyvias grupes būdas, pagrįstas panašiomis charakteristikomis. Kiekvienas klasterio narys turi daugiau panašumų su kitais tos pačios klasterio nariais, nei su kitų grupių nariais. Reprezentatyviausias taškas grupėje vadinamas centroidu. Paprastai tai yra klasterio duomenų taškų reikšmių vidurkis.

Tvarkykite duomenis. Jei duomenis sudaro vienas kintamasis, histograma gali būti tinkama. Jei dalyvauja du kintamieji, duomenis pavaizduokite koordinačių plokštumoje. Pavyzdžiui, jei klasėje žiūrėjote į moksleivių ūgį ir svorį, nubrėžkite taškus duomenys apie kiekvieną vaiką diagramoje, svoris yra horizontali ašis, o aukštis - vertikalus ašis. Jei dalyvauja daugiau nei du kintamieji, duomenims rodyti gali prireikti matricų.

Grupuokite duomenis į grupes. Kiekvieną grupę turėtų sudaryti arčiausiai esančių duomenų taškai. Aukščio ir svorio pavyzdyje sugrupuokite visus duomenų taškus, kurie, atrodo, yra arti vienas kito. Grupių skaičius ir tai, ar kiekvienas duomenų taškas turi būti grupėje, gali priklausyti nuo tyrimo tikslų.

Kiekvienam klasteriui pridėkite visų narių reikšmes. Pavyzdžiui, jei duomenų grupę sudarytų taškai (80, 56), (75, 53), (60, 50) ir (68,54), reikšmių suma būtų (283, 213).

Padalinkite sumą iš klasterio narių skaičiaus. Aukščiau pateiktame pavyzdyje 283, padalyti iš keturių, yra 70,75, o 213, padalyti iš keturių, yra 53,25, taigi klasterio centroidas yra (70,75, 53,25).

Nubraižykite klasterio centroidus ir nustatykite, ar kokie nors taškai yra arčiau kito klasterio centroido nei jų pačių klasterio centroidai. Jei bet kuris taškas yra arčiau kito centroido, perskirstykite juos į grupę, kurioje yra arčiau centroido.

Pakartokite 3, 4 ir 5 veiksmus, kol visi duomenų taškai bus grupėje, kurioje yra centroidas, prie kurio jie yra arčiausiai.

  • Dalintis
instagram viewer