Діаграма розсіювання - важливий діагностичний інструмент в арсеналі статистиків, отриманий шляхом графіку двох змінних один проти одного. Це дозволяє статистику розглядати змінні та формувати робочу гіпотезу про їх взаємозв'язок. З цієї причини його зазвичай складають перед проведенням регресійного аналізу. Потім статистик перевіряє гіпотезу за допомогою регресійного аналізу та визначає ознаку та точну величину взаємозв'язку. Крім того, графік розсіювання допомагає визначити відхилення - значення, які аномально віддалені від більшості даних у вибірці. Усунення викидів допомагає вдосконалити модель регресії.
Перевірте наявність від’ємного зв’язку між двома змінними в графіку розсіювання. Якщо низькі значення першої змінної відповідають значенням другої змінної, існує негативна кореляція. У цьому випадку лінія, проведена через точки даних, має негативний нахил.
Вивчіть графік розсіювання на предмет позитивного зв’язку між змінними. Якщо низькі значення першої змінної в графіку розсіювання відповідають низьким значенням другої, а високій значення першого так само відповідають високим значенням другого, змінні мають позитив кореляція. У цьому випадку лінія, проведена через точки даних, має позитивний нахил.
Перевірте графік розсіювання на відсутність зв'язку між змінними. Якщо точки даних в діаграмі розсіювання розподіляються випадковим чином, без явного зв'язку між ними, вони не мають або кореляції, або невеликої, статистично незначущої кореляції. У цьому випадку лінія, проведена через точки даних, є горизонтальною з нахилом, рівним нулю.
Проведіть лінію через точки даних та вивчіть її форму, щоб оцінити характер взаємозв'язку між двома змінними. Пряма лінія інтерпретується як лінійна залежність, вигнута форма передбачає квадратичну залежність, а Лінія, що лежить відносно рівно, перш ніж раптово стріляти вгору чи вниз, інтерпретується як експоненціальна залежність.
Вивчіть графік розсіювання на предмет викидів, значень, які лежать незвично далеко від скупчення точок даних. Викиди спотворюють взаємозв'язок між змінними. Усуньте їх, але лише якщо їх відсутність не впливає на аналіз взаємозв'язку між двома змінними.