ბიზნესი, მთავრობა და აკადემიური საქმიანობა თითქმის ყოველთვის მოითხოვს მონაცემთა შეგროვებას და ანალიზს. რიცხვითი მონაცემების წარმოდგენის ერთ-ერთი გზაა გრაფიკები, ჰისტოგრამები და დიაგრამები. ვიზუალიზაციის ეს ტექნიკა საშუალებას აძლევს ხალხს უკეთ გააცნობიერონ პრობლემები და შეიმუშაონ გადაწყვეტილებები. სიცარიელე, მტევანი და დაშორება მონაცემთა ნაკრებების მახასიათებელია, რომლებიც გავლენას ახდენს მათემატიკურ ანალიზზე და ადვილად ჩანს ვიზუალურ გამოსახულებებზე.
ხვრელები მონაცემებში
ხარვეზები გულისხმობს მონაცემების ნაკრებში დაკარგულ ტერიტორიებს. მაგალითად, თუ სამეცნიერო ექსპერიმენტი აგროვებს ტემპერატურის მონაცემებს 50 გრადუსი ფარენგეიტის ფარგლებში ფარენგეიტის 100 გრადუსამდე, მაგრამ 70 და 80 გრადუსს შორის არაფერია, რაც მონაცემთა სიცარიელეს წარმოადგენს დადგენილი. ამ მონაცემთა ნაკრების სტრიქონში მოცემული იქნება "x" ნიშნები ტემპერატურისთვის 50-დან 70-მდე და ისევ 80-დან 100-მდე, მაგრამ 70-დან 80-მდე არაფერი იქნება. მკვლევარებს შეუძლიათ სიღრმისეული სიღრმე და შეისწავლონ, თუ რატომ არ ჩანს მონაცემთა გარკვეული რაოდენობა შეგროვებულ ნიმუშში.
იზოლირებული ჯგუფები
მტევანი წარმოადგენს მონაცემთა წერტილების იზოლირებულ ჯგუფებს. ხაზის ნახაზები, რომლებიც მონაცემთა ნაკრებების წარმოდგენის ერთ-ერთი გზაა, არის ხაზები "x" ნიშნებით, რომლებიც განთავსებულია სპეციფიკურ ციფრებზე, მონაცემთა ნაკრებში მათი კლების სიხშირის გამოსახატავად. კლასტერი ასახულია, როგორც ამ "x" ნიშნების კრებული მცირე ინტერვალში ან მონაცემთა ქვეჯგუფში. მაგალითად, თუ 10 მოსწავლის კლასის საგამოცდო ქულები იქნება 74, 75, 80, 72, 74, 75, 76, 86, 88 და 73, სტრიქონის მონაკვეთზე ყველაზე მეტი "x" ნიშანი იქნება 72- -76 ქულათა ინტერვალით. ეს წარმოადგენს მონაცემთა კასეტურს. გაითვალისწინეთ, რომ 74 და 75 სიხშირე ორია, მაგრამ ყველა სხვა ქულისთვის ეს ერთია.
უკიდურესობებში
განლაგება არის უკიდურესი მნიშვნელობები - მონაცემთა წერტილები, რომლებიც მნიშვნელოვნად ჩამორჩება მონაცემთა ნაკრების სხვა მნიშვნელობებს. მონაკვეთი უნდა იყოს მნიშვნელოვნად ნაკლები ან მეტი, ვიდრე მონაცემთა ნაკრების რიცხვების უმრავლესობა. ”უკიდურესობის” განმარტება დამოკიდებულია კვლევაში მონაწილე ანალიტიკოსების გარემოებაზე და კონსენსუსზე. Outlier შეიძლება იყოს ცუდი მონაცემთა წერტილები, ასევე ცნობილი როგორც ხმაური, ან შეიძლება შეიცავდეს მნიშვნელოვან ინფორმაციას გამოკვლეული ფენომენისა და თავად მონაცემთა შეგროვების მეთოდოლოგიის შესახებ. მაგალითად, თუ კლასის ქულები ძირითადად 70-დან 80-მდეა, მაგრამ რამდენიმე ქულა დაბალ 50-იან წლებშია, ეს შეიძლება იყოს გარედან.
ყველაფერთან ერთად
მონაცემთა ნაკრებში არსებულ ხარვეზებს, დაშორებებს და მტევნებს შეუძლიათ გავლენა მოახდინონ მათემატიკური ანალიზის შედეგებზე. ხარვეზები და კლასტერები შეიძლება წარმოადგენდეს შეცდომებს მონაცემთა შეგროვების მეთოდოლოგიაში. მაგალითად, თუ სატელეფონო გამოკითხვის შედეგად გამოკითხულია მხოლოდ გარკვეული რეგიონალური კოდები, მაგალითად, დაბალშემოსავლიანი საცხოვრებელი კომპლექსები ან მაღალი დონის ქალაქგარე უბნები საცხოვრებელი ადგილები და არა მოსახლეობის ფართო მონაკვეთი, არსებობს შანსი, რომ არსებობს ხარვეზები და მტევანი მონაცემებში. შემკვეთებს შეუძლიათ დახრიან მონაცემთა ნაკრების საშუალო ან საშუალო მნიშვნელობა. მაგალითად, მონაცემთა ნაკრების საშუალო ან საშუალო მნიშვნელობა, რომელიც შედგება ოთხი რიცხვისგან - 50, 55, 65 და 90 - არის 65. გარეშე 90, საშუალო, საშუალო დაახლოებით 57.