Kegiatan bisnis, pemerintahan, dan akademik hampir selalu membutuhkan pengumpulan dan analisis data. Salah satu cara untuk merepresentasikan data numerik adalah melalui grafik, histogram dan grafik. Teknik visualisasi ini memungkinkan orang untuk mendapatkan wawasan yang lebih baik tentang masalah dan menemukan solusi. Kesenjangan, cluster dan outlier adalah karakteristik kumpulan data yang mempengaruhi analisis matematis dan mudah terlihat pada representasi visual.
Lubang di Data
Kesenjangan mengacu pada area yang hilang dalam kumpulan data. Misalnya, jika eksperimen ilmiah mengumpulkan data suhu dalam kisaran 50 derajat Fahrenheit hingga 100 derajat Fahrenheit, tetapi tidak ada antara 70 dan 80 derajat, yang akan mewakili celah dalam data set. Plot garis dari kumpulan data ini akan memiliki tanda "x" untuk suhu antara 50 dan 70 dan lagi antara 80 dan 100, tetapi tidak akan ada antara 70 dan 80. Peneliti dapat menggali lebih dalam dan mengeksplorasi mengapa titik data tertentu tidak muncul dalam sampel yang dikumpulkan.
Grup Terisolasi
Cluster adalah grup titik data yang terisolasi. Plot garis, yang merupakan salah satu cara untuk mewakili kumpulan data, adalah garis dengan tanda "x" yang ditempatkan di atas angka tertentu untuk menggambarkan frekuensi kemunculannya dalam kumpulan data. Sebuah cluster digambarkan sebagai kumpulan tanda "x" ini dalam interval kecil atau subset data. Misalnya, jika nilai ujian untuk kelas yang terdiri dari 10 siswa adalah 74, 75, 80, 72, 74, 75, 76, 86, 88 dan 73, tanda "x" paling banyak pada plot garis adalah 72- interval skor ke-76. Ini akan mewakili cluster data. Perhatikan frekuensi untuk 74 dan 75 adalah dua, tetapi untuk semua skor lainnya, itu adalah satu.
Di Ekstrim
Pencilan adalah nilai ekstrem -- titik data yang terletak secara signifikan di luar nilai lain dalam kumpulan data. Pencilan harus secara signifikan kurang dari atau lebih besar dari mayoritas angka dalam kumpulan data. Definisi "ekstrim" tergantung pada keadaan dan konsensus para analis yang terlibat dalam penelitian. Pencilan mungkin merupakan titik data yang buruk, juga dikenal sebagai noise, atau mungkin berisi informasi berharga tentang fenomena yang sedang diselidiki dan metodologi pengumpulan data itu sendiri. Misalnya, jika skor kelas sebagian besar berada di kisaran 70 hingga 80, tetapi beberapa skor berada di bawah 50-an, itu mungkin mewakili outlier.
Menyatukan Semuanya
Kesenjangan, outlier, dan kluster dalam kumpulan data dapat memengaruhi hasil analisis matematis. Kesenjangan dan cluster mungkin mewakili kesalahan dalam metodologi pengumpulan data. Misalnya, jika survei telepon hanya mensurvei kode area tertentu, seperti kompleks perumahan berpenghasilan rendah atau pinggiran kota kelas atas. daerah pemukiman, dan populasi yang tidak terlalu luas, kemungkinan akan ada kesenjangan dan klaster dalam data. Pencilan dapat mengubah nilai rata-rata atau rata-rata dari kumpulan data. Misalnya, nilai rata-rata atau rata-rata kumpulan data yang terdiri dari empat angka -- 50, 55, 65, dan 90 -- adalah 65. Namun, tanpa outlier 90, rata-ratanya adalah sekitar 57.