Как да намерите Centroid в клъстериращ анализ

Клъстерният анализ е метод за организиране на данни в представителни групи въз основа на подобни характеристики. Всеки член на клъстера има повече общо с други членове на същия клъстер, отколкото с членовете на другите групи. Най-представителната точка в групата се нарича центроид. Обикновено това е средната стойност на стойностите на точките от данни в клъстера.

Организирайте данните. Ако данните се състоят от една променлива, може да е подходяща хистограма. Ако са включени две променливи, изобразете данните на координатна равнина. Например, ако търсите височината и теглото на учениците в класната стая, начертайте точките на данни за всяко дете на графика, като теглото е хоризонталната ос, а височината е вертикалната ос. Ако са включени повече от две променливи, може да са необходими матрици за показване на данните.

Групирайте данните в клъстери. Всеки клъстер трябва да се състои от най-близките до него точки от данни. В примера за височина и тегло групирайте всички точки от данни, които изглеждат близо една до друга. Броят на клъстерите и дали всяка точка от данни трябва да бъде в клъстер, може да зависи от целите на изследването.

instagram story viewer

За всеки клъстер добавете стойностите на всички членове. Например, ако клъстер от данни се състои от точките (80, 56), (75, 53), (60, 50) и (68,54), сумата от стойностите ще бъде (283, 213).

Разделете общия брой на броя членове на клъстера. В горния пример 283, разделено на четири, е 70,75, а 213, разделено на четири, е 53,25, така че центроидът на клъстера е (70,75, 53,25).

Начертайте клъстерните центроиди и определете дали някои точки са по-близо до центроид на друг клъстер, отколкото до центроида на собствения им клъстер. Ако някои точки са по-близо до различен центроид, преразпределете ги в клъстера, съдържащ по-близкия центроид.

Повторете стъпки 3, 4 и 5, докато всички точки от данни са в клъстера, съдържащ центроида, до който са най-близо.

Teachs.ru
  • Дял
instagram viewer