როგორ ვიპოვოთ Centroid კლასტერული ანალიზის დროს

კასეტური ანალიზი წარმოადგენს მონაცემების რეპრეზენტაციულ ჯგუფებად დალაგების მეთოდს მსგავსი მახასიათებლების საფუძველზე. კლასტერის თითოეულ წევრს უფრო მეტი საერთო აქვს იმავე ჯგუფის სხვა წევრებთან, ვიდრე სხვა ჯგუფების წევრებთან. ჯგუფის ყველაზე წარმომადგენლობით წერტილს ცენტროიდი ეწოდება. ჩვეულებრივ, ეს არის კლასტერში მონაცემთა წერტილების მნიშვნელობების საშუალო.

მონაცემების ორგანიზება. თუ მონაცემები შედგება ერთი ცვლადისგან, შეიძლება ჰისტოგრამა იყოს შესაფერისი. თუ ორი ცვლადია ჩართული, მონაცემები აწარმოეთ კოორდინაციის სიბრტყეზე. მაგალითად, თუ თქვენ სკოლის მოსწავლეების სიმაღლესა და წონას უყურებდით, აღნიშნეთ წერტილები თითოეული ბავშვის მონაცემები გრაფიკზე, წონა არის ჰორიზონტალური ღერძი და სიმაღლე ვერტიკალური ღერძი თუ ორზე მეტი ცვლადია ჩართული, მონაცემთა ჩვენებისათვის შეიძლება საჭირო იყოს მატრიცა.

დააჯგუფეთ მონაცემები მტევანებად. თითოეული კლასტერი უნდა შედგებოდეს მასთან ყველაზე ახლოს მყოფი მონაცემების წერტილებისგან. სიმაღლისა და წონის მაგალითში დააჯგუფეთ მონაცემთა ნებისმიერი წერტილი, რომლებიც, როგორც ჩანს, ახლოს არიან. კლასტერების რაოდენობა და უნდა იყოს თუ არა მონაცემთა ყველა წერტილი კასეტურში, შეიძლება დამოკიდებული იყოს კვლევის მიზნებზე.

თითოეული კლასტერისთვის დაამატეთ ყველა წევრის მნიშვნელობები. მაგალითად, თუ მონაცემთა კასეტური შედგება წერტილებისგან (80, 56), (75, 53), (60, 50) და (68,54), მნიშვნელობების ჯამი იქნება (283, 213).

დაიყოს ჯამური კლასტერის წევრების რაოდენობაზე. ზემოთ მოყვანილ მაგალითში 283 გაყოფილი ოთხზე არის 70,75, ხოლო 213 გაყოფილი ოთხზე არის 53,25, ასე რომ მტევნის ცენტროიდი არის (70,75, 53,25).

მოხაზეთ კასეტური ცენტროიდები და განსაზღვრეთ, მიუახლოვდათ თუ არა რომელიმე წერტილი სხვა კლასტერის ცენტროიდს, ვიდრე საკუთარი კასეტურის ცენტროიდთან. თუ რომელიმე წერტილი უფრო ახლოს არის სხვა ცენტროიდთან, გადაანაწილეთ ისინი უფრო ახლოს მდებარე ცენტროიდზე.

გაიმეორეთ ნაბიჯები 3, 4 და 5 მანამ, სანამ მონაცემების ყველა წერტილი კასეტურში არ არის, რომელშიც შედის ცენტროიდი, რომელთანაც ისინი ყველაზე ახლოს არიან.

  • გაზიარება
instagram viewer