実験は予測をテストします。 これらの予測は多くの場合数値です。つまり、科学者がデータを収集すると、数値が特定の方法で分類されることを期待します。 実世界のデータが科学者の予測と正確に一致することはめったにないため、科学者は、観測されたデータの違いが 予想される数は、偶然によるものか、科学者に基礎となる理論の調整を強いる予期しない要因によるものです。 カイ二乗検定は、科学者がこの目的で使用する統計ツールです。
必要なデータの種類
カイ二乗検定を使用するには、カテゴリデータが必要です。 カテゴリデータの例は、「はい」という質問に回答した人の数と回答した人の数です。 質問「いいえ」(2つのカテゴリ)、または緑、黄色、または灰色の個体群内のカエルの数(3つのカテゴリ)。 人々に身長を尋ねる調査から収集される可能性があるなど、連続データに対してカイ2乗検定を使用することはできません。 このような調査から、さまざまな高さが得られます。 ただし、高さを「高さ6フィート未満」、「高さ6フィート以上」などのカテゴリに分類すると、データに対してカイ2乗検定を使用できます。
適合度テスト
適合度検定は一般的で、おそらく最も単純な、カイ2乗統計を使用して実行される検定です。 適合度テストでは、科学者は、データの各カテゴリで見られると予想される数値について特定の予測を行います。 次に、観測データと呼ばれる実世界のデータを収集し、カイ2乗検定を使用して、観測データが自分の期待に一致するかどうかを確認します。
たとえば、生物学者がカエルの種の遺伝パターンを研究していると想像してみてください。 一連のカエルの親の100の子孫のうち、生物学者の遺伝モデルは、25の黄色の子孫、50の緑の子孫、および25の灰色の子孫を期待するように彼女を導きます。 彼女が実際に観察しているのは、20匹の黄色い子孫、52匹の緑色の子孫、28匹の灰色の子孫です。 彼女の予測はサポートされていますか、それとも彼女の遺伝モデルは正しくありませんか? 彼女はカイ二乗検定を使用して調べることができます。
カイ二乗統計の計算
対応する観測値から各期待値を減算し、各結果を2乗することにより、カイ2乗統計の計算を開始します。 カエルの子孫の例の計算は次のようになります。
黄色=(20-25)^ 2 = 25緑=(52-50)^ 2 = 4灰色=(28-25)^ 2 = 9
次に、各結果を対応する期待値で割ります。
黄色= 25÷25 = 1緑= 4÷50 = 0.08灰色= 9÷25 = 0.36
最後に、前のステップの回答を合計します。
カイ二乗= 1 + 0.08 + 0.36 = 1.44
カイ二乗統計の解釈
カイ二乗統計は、観測値が予測値とどの程度異なっていたかを示します。 数値が大きいほど、違いは大きくなります。 カイ2乗値が高すぎるか低すぎて予測をサポートできないかは、特定の値を下回っているかどうかを確認することで判断できます。 臨界値 カイ二乗分布表。 このテーブルは、カイ2乗値を確率と一致させます。 p値. 具体的には、この表は、観測値と期待値の差が単に偶然によるものである確率、または他の要因が存在するかどうかを示しています。 適合度検定の場合、p値が0.05以下の場合は、予測を棄却する必要があります。
あなたは決定する必要があります 自由度 (df)分布表で重要なカイ二乗値を調べる前に、データを調べてください。 自由度は、データ内のカテゴリの数から1を引くことによって計算されます。 この例には3つのカテゴリがあるため、2つの自由度があります。 一瞥 このカイ二乗分布表 2自由度の場合、0.05の確率の臨界値は5.99であることがわかります。 これは、計算されたカイ2乗値が5.99未満である限り、期待値、つまり基礎となる理論が有効であり、サポートされていることを意味します。 カエルの子孫データのカイ2乗統計量は1.44であったため、生物学者は彼女の遺伝子モデルを受け入れることができます。