A análise de cluster é um método de organização de dados em grupos representativos com base em características semelhantes. Cada membro do cluster tem mais em comum com outros membros do mesmo cluster do que com membros de outros grupos. O ponto mais representativo dentro do grupo é denominado centróide. Normalmente, essa é a média dos valores dos pontos de dados no cluster.
Organize os dados. Se os dados consistirem em uma única variável, um histograma pode ser apropriado. Se duas variáveis estiverem envolvidas, represente graficamente os dados em um plano de coordenadas. Por exemplo, se você estava observando a altura e o peso de crianças em idade escolar, trace os pontos de dados para cada criança em um gráfico, com o peso sendo o eixo horizontal e a altura sendo o vertical eixo. Se mais de duas variáveis estiverem envolvidas, podem ser necessárias matrizes para exibir os dados.
Agrupe os dados em clusters. Cada cluster deve consistir nos pontos de dados mais próximos a ele. No exemplo de altura e peso, agrupe quaisquer pontos de dados que pareçam estar próximos. O número de clusters e se cada ponto de dados deve estar em um cluster pode depender dos objetivos do estudo.
Para cada cluster, adicione os valores de todos os membros. Por exemplo, se um cluster de dados consistisse nos pontos (80, 56), (75, 53), (60, 50) e (68,54), a soma dos valores seria (283, 213).
Divida o total pelo número de membros do cluster. No exemplo acima, 283 dividido por quatro é 70,75 e 213 dividido por quatro é 53,25, então o centróide do cluster é (70,75, 53,25).
Plote os centróides do cluster e determine se algum ponto está mais próximo de um centróide de outro cluster do que do centróide de seu próprio cluster. Se algum ponto estiver mais próximo de um centróide diferente, redistribua-o para o cluster que contém o centróide mais próximo.
Repita as etapas 3, 4 e 5 até que todos os pontos de dados estejam no cluster que contém o centróide do qual estão mais próximos.