კორელაცია სულაც არ არის თანაბარი მიზეზშედეგობრივი კავშირი, მაგრამ ექსპერიმენტში ორ ცვლადს შორის კორელაციის პოვნა კვლავ ძალზე მნიშვნელოვანი ნახავთ მათ შორის ურთიერთობას. ამიტომ კორელაციის ტესტები არის სტატისტიკური ტესტის ერთ – ერთი ყველაზე გავრცელებული სახეობა, რომელიც გამოიყენება მეცნიერებაში, ყველაზე ცნობილია პირსონის კორელაციის კოეფიციენტი.
ამასთან, სავარაუდოდ, განსაზღვრის კოეფიციენტი უფრო მნიშვნელოვანია, რადგან ის გიჩვენებთ ერთი ცვლადის ვარიაციის პროპორციას, რომლის პროგნოზირებაც შესაძლებელია მეორეზე. ამიტომ განსაზღვრის კოეფიციენტის გაანგარიშების შესწავლა მნიშვნელოვანია ყველასთვის, ვინც მუშაობს კორელაციაზე დაფუძნებულ სტატისტიკასთან.
რა არის განსაზღვრის კოეფიციენტი?
განსაზღვრის ძირითადი კოეფიციენტია ის, რომ ეს არის პირსონის კორელაციის კოეფიციენტის კვადრატი, რ, და ამიტომ მას ხშირად R- ს უწოდებენ2.
პირსონის კოეფიციენტი ზომავს კორელაციებს, როდესაც ერთი ცვლადის ზრდა ან ახლავს მეორის გაზრდას (პოზიტიური კორელაცია) ან მის შემცირებას (უარყოფითი კორელაცია). მნიშვნელობა ამისთვის რ შეიძლება იყოს anything1 და +1 შორის, რიცხვის სიდიდე გეუბნება კორელაციის სიძლიერეს და ნიშანი გეუბნება არის ეს დადებითი თუ უარყოფითი კორელაცია.
რ2 არის ამ ზომის კვადრატი, ამიტომ ის იცვლება 0 – დან 1 – მდე და გიჩვენებთ ვარიაციის პროცენტს ერთ ცვლადში, რომლის პროგნოზირება შესაძლებელია კორელაციური ცვლადით. ეს სასარგებლოა მრავალი რამისთვის, განსაკუთრებით მათემატიკური მოდელების მშენებლობისთვის, პროგნოზირების მიზნით.
განსაზღვრის გაანგარიშების კოეფიციენტი
განსაზღვრის კოეფიციენტის გაანგარიშების პროცესი, ძირითადად, იგივეა, რაც Pearson- ის კორელაციის კოეფიციენტის გაანგარიშების პროცესი, გარდა იმისა, რომ ბოლოს კვადრატში ადგენთ შედეგს. პირსონის კორელაციის კოეფიციენტის ფორმულაა:
r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {(n \ sum x ^ 2 - (\ sum x) ^ 2) - (n \ sum y ^ 2 - (\ sum y ) ^ 2)}}
არსებობს რამდენიმე მნიშვნელოვანი ინფორმაცია, რომელთა ამუშავებაც გჭირდებათ ამ (მართალია საშინელი გარეგნობის!) ფორმულის გამოყენებით: თქვენი x და y მნიშვნელობები თითოეული დაკვირვებისთვის (ანუ თქვენი ორი ცვლადი), თქვენი ჯამი x და y მნიშვნელობები, თითოეული ჯამი x ცვლადი გამრავლებული შესაბამისზე y ცვლადი და თითოეული თანხა x და y ცვლადი კვადრატში.
ამის შემუშავების მოსახერხებელი გზაა ა ცხრილი პროგრამა, როგორიცაა Microsoft Excel, სვეტებისთვის x, y, xy, x2 და y2 და თითოეული სვეტის ბოლოში მოცემულია თანხები. თქვენ ასევე დაგჭირდებათ მნიშვნელობა ნ, თქვენი ნიმუშის ზომა (რომელთაგან თითოეულს აქვს x და y ღირებულება).
გაიარეთ ფორმულით მითითებული პროცესი. პირველი, მიიღოს ნ გამრავლებული ჯამი თქვენი xy მნიშვნელობებს და შემდეგ გამოკლება თანხა x მნიშვნელობები გამრავლებული ჯამის ჯამზე y ღირებულებებს.
მთელი ეს შედეგი დაიყოს ქვედა მონაკვეთზე: ნ რამდენჯერმე ჯდება თქვენი კვადრატების ჯამი x მნიშვნელობები, გამოკლებული ჯამი x მნიშვნელობები კვადრატში, ყველა გამრავლებული იგივე შედეგისთვის თქვენი y მნიშვნელობებს, საბოლოოდ დაიყოს კვადრატული ფესვი დაყოფის შესრულებამდე. ეს გაძლევთ რ, რომელსაც უბრალოდ კვადრატში ადგენთ R მისაღებად2.
განსაზღვრის კოეფიციენტის ინტერპრეტაცია
განსაზღვრის კოეფიციენტი არის რიცხვი 0-სა და 1-ს შორის, რომელიც შეიძლება გადავიდეს პროცენტად 100-ზე გამრავლებით. განსაზღვრის სტანდარტული კოეფიციენტი არის y- ის ვარიაციის რაოდენობა, რომლის ახსნა შესაძლებელია xსხვა სიტყვებით რომ ვთქვათ, რამდენად შეესაბამება მონაცემები რეგრესიის მოდელს, რომელსაც იყენებთ.
ამასთან, მნიშვნელოვანია აღინიშნოს ჩვეულებრივი სიფრთხილით მონაცემები, რომლებიც მოცემულია კორელაციებზე დაყრდნობით. სავსებით შესაძლებელია ორი ცვლადის კორელაცია მოხდეს მიზეზობრივი კავშირის გარეშე.
მაგალითად, მიიღეთ ურთიერთობა სასმენი აპარატების გამოყენებას და თქვენს კანზე ნაოჭების რაოდენობას შორის. ამ ორს შორის ძლიერი კორელაციაა, მაგრამ, რა თქმა უნდა, ორივე ნამდვილად გამოწვეულია სიბერით. ეს არ არის ხარვეზი მიდგომაში იმდენად, რამდენადაც შეზღუდვა უნდა გაითვალისწინოთ შედეგების სწორად ინტერპრეტაციისთვის.