ビジネス、政府、および学術活動では、ほとんどの場合、データの収集と分析が必要です。 数値データを表す方法の1つは、グラフ、ヒストグラム、およびチャートを使用することです。 これらの視覚化技術により、人々は問題に対するより良い洞察を得て、解決策を考案することができます。 ギャップ、クラスター、および外れ値は、数学的分析に影響を与えるデータセットの特性であり、視覚的表現ですぐに確認できます。
データの穴
ギャップとは、データセット内の欠落している領域を指します。 たとえば、科学実験で華氏50度の範囲の温度データが収集される場合 華氏100度までですが、70度から80度の間はなく、データのギャップを表します。 セットする。 このデータセットの折れ線グラフには、50〜70の温度、および80〜100の温度に対して「x」マークが付いていますが、70〜80の間に何もありません。 研究者はさらに深く掘り下げて、収集されたサンプルに特定のデータポイントが表示されない理由を探ることができます。
孤立したグループ
クラスターは、データポイントの分離されたグループです。 データセットを表す方法の1つであるラインプロットは、データセット内での出現頻度を表すために特定の番号の上に「x」マークが配置されたラインです。 クラスターは、小さな間隔またはデータサブセット内のこれらの「x」マークのコレクションとして表されます。 たとえば、10人の生徒のクラスの試験スコアが74、75、80、72、74、75、76、86、88、および73である場合、折れ線グラフで最も「x」のマークは72- to-76スコア間隔。 これはデータクラスターを表します。 74と75の頻度は2ですが、他のすべてのスコアでは1であることに注意してください。
極端に
外れ値は極値です。データセット内の他の値の大幅に外側にあるデータポイントです。 外れ値は、データセット内の大多数の数値よりも大幅に小さいか大きい必要があります。 「極端な」の定義は、調査に関与するアナリストの状況とコンセンサスに依存します。 外れ値は、ノイズとも呼ばれる不良データポイントである場合や、調査中の現象やデータ収集方法自体に関する貴重な情報が含まれている場合があります。 たとえば、クラスのスコアがほとんど70から80の範囲にあるが、いくつかのスコアが50の低い範囲にある場合、それらは外れ値を表す可能性があります。
すべてを一緒に入れて
データセットのギャップ、外れ値、クラスターは、数学的分析の結果に影響を与える可能性があります。 ギャップとクラスターは、データ収集方法のエラーを表す場合があります。 たとえば、電話調査で低所得の住宅団地や高級郊外などの特定の市外局番のみを調査する場合 住宅地であり、人口の広い断面ではないため、データにギャップやクラスターが存在する可能性があります。 外れ値は、データセットの平均値または平均値を歪める可能性があります。 たとえば、50、55、65、90の4つの数値で構成されるデータセットの平均値または平均値は65です。 ただし、外れ値90がない場合、平均は約57です。