線形回帰は、従属変数間の関係を調べるための統計的手法であり、次のように表されます。 y、 および1つ以上の独立変数。 バツ. 従属変数は、任意の値を取ることができるという点で連続であるか、少なくとも連続に近い必要があります。 独立変数はどのタイプでもかまいません。 線形回帰はそれ自体では因果関係を示すことはできませんが、従属変数は通常、独立変数の影響を受けます。
線形回帰は線形関係に限定されます
その性質上、線形回帰は従属変数と独立変数の間の線形関係のみを調べます。 つまり、それらの間に直線的な関係があることを前提としています。 時々これは間違っています。 たとえば、収入と年齢の関係は湾曲しています。つまり、収入は成人期の初期に上昇し、成人後期に平坦になり、退職後に減少する傾向があります。 関係のグラフィック表現を見ると、これが問題であるかどうかがわかります。
線形回帰は従属変数の平均のみを調べます
線形回帰は、従属変数の平均と独立変数の間の関係を調べます。 たとえば、乳児の出生時体重と母親の出生時体重の関係を見ると 年齢、線形回帰などの特性は、の母親から生まれた赤ちゃんの平均体重を調べます。 さまざまな年齢。 ただし、従属変数の極値を確認する必要がある場合があります。たとえば、赤ちゃんは体重が少ないと危険にさらされるため、この例では極値を確認する必要があります。
平均が単一の変数の完全な説明ではないのと同様に、線形回帰は変数間の関係の完全な説明ではありません。 この問題は、分位点回帰を使用して対処できます。
線形回帰は外れ値に敏感です
外れ値は驚くべきデータです。 外れ値は、単変量(1つの変数に基づく)または多変量にすることができます。 年齢と収入を見ると、単変量の外れ値は、118歳の人、または昨年1,200万ドルを稼いだ人のようなものになります。 多変量外れ値は、$ 200,000を稼いだ18歳の人です。 この場合、年齢も収入も極端ではありませんが、18歳の人はそれほどお金を稼いでいません。
外れ値は回帰に大きな影響を与える可能性があります。 統計ソフトウェアに影響統計を要求することで、この問題に対処できます。
データは独立している必要があります
線形回帰は、データが独立していることを前提としています。 つまり、ある科目(人など)のスコアは、別の科目のスコアとは何の関係もありません。 これは、常にではありませんが、多くの場合、賢明です。 それが意味をなさない2つの一般的なケースは、空間と時間のクラスタリングです。
宇宙でのクラスタリングの典型的な例は、さまざまなクラス、学年、学校、学区の生徒がいる場合の生徒のテストスコアです。 同じクラスの生徒は、多くの点で類似している傾向があります。つまり、同じ地域から来ていることが多く、同じ教師がいるなどです。 したがって、それらは独立していません。
時間内のクラスタリングの例は、同じ被験者を複数回測定する研究です。 たとえば、食事と体重の研究では、各人を複数回測定する場合があります。 これらのデータは独立していません。なぜなら、ある人の体重は、他の人の体重と関連しているからです。 これに対処する1つの方法は、マルチレベルモデルを使用することです。