Диаграмма рассеяния - важный диагностический инструмент в арсенале статистиков, получаемый путем сопоставления двух переменных друг с другом. Это позволяет статистику взглянуть на переменные и сформировать рабочую гипотезу об их взаимосвязи. По этой причине его обычно составляют до проведения регрессионного анализа. Затем статистик проверяет гипотезу с помощью регрессионного анализа и определяет знак и точную величину взаимосвязи. Кроме того, диаграмма рассеяния помогает идентифицировать выбросы - значения, которые ненормально далеки от большинства данных в выборке. Устранение выбросов помогает улучшить регрессионную модель.
Проверьте наличие отрицательной связи между двумя переменными на диаграмме рассеяния. Если низкие значения первой переменной соответствуют высоким значениям второй переменной, существует отрицательная корреляция. В этом случае линия, проведенная через точки данных, имеет отрицательный наклон.
Изучите диаграмму разброса на наличие положительной взаимосвязи между переменными. Если низкие значения первой переменной на диаграмме рассеяния соответствуют низким значениям второй, а высокие значения первого аналогично соответствуют высоким значениям второго, переменные имеют положительный корреляция. В этом случае линия, проведенная через точки данных, имеет положительный наклон.
Проверьте диаграмму рассеяния на отсутствие взаимосвязи между переменными. Если точки данных на диаграмме разброса распределены случайным образом без очевидной связи между ними, они либо не имеют корреляции, либо имеют небольшую, статистически незначимую корреляцию. В этом случае линия, проведенная через точки данных, является горизонтальной с нулевым наклоном.
Проведите линию через точки данных и изучите ее форму, чтобы оценить характер взаимосвязи между двумя переменными. Прямая линия интерпретируется как линейная зависимость, изогнутая форма предполагает квадратичную зависимость, а Линия, которая лежит относительно ровно перед внезапным скачком вверх или вниз, интерпретируется как экспоненциальная зависимость.
Изучите диаграмму разброса на предмет выбросов, значений, которые лежат аномально далеко от группы точек данных. Выбросы искажают взаимосвязь между переменными. Исключите их, но только если их отсутствие не влияет на анализ взаимосвязи между двумя переменными.