กิจกรรมทางธุรกิจ ภาครัฐ และวิชาการมักต้องการการรวบรวมและวิเคราะห์ข้อมูล วิธีหนึ่งในการแสดงข้อมูลตัวเลขคือผ่านกราฟ ฮิสโตแกรม และแผนภูมิ เทคนิคการสร้างภาพเหล่านี้ช่วยให้ผู้คนเข้าใจปัญหาและคิดค้นวิธีแก้ปัญหาได้ดีขึ้น ช่องว่าง คลัสเตอร์ และค่าผิดปกติเป็นลักษณะของชุดข้อมูลที่มีอิทธิพลต่อการวิเคราะห์ทางคณิตศาสตร์และมองเห็นได้ชัดเจนในการนำเสนอด้วยภาพ
หลุมในข้อมูล
ช่องว่างหมายถึงส่วนที่ขาดหายไปในชุดข้อมูล ตัวอย่างเช่น หากการทดลองทางวิทยาศาสตร์รวบรวมข้อมูลอุณหภูมิในช่วง 50 องศาฟาเรนไฮต์ ถึง 100 องศาฟาเรนไฮต์ แต่ไม่มีอะไรระหว่าง 70 ถึง 80 องศาที่จะแสดงถึงช่องว่างในข้อมูล ชุด พล็อตเส้นของชุดข้อมูลนี้จะมีเครื่องหมาย "x" สำหรับอุณหภูมิระหว่าง 50 ถึง 70 และอีกครั้งระหว่าง 80 ถึง 100 แต่จะไม่มีอะไรระหว่าง 70 ถึง 80 นักวิจัยสามารถเจาะลึกลงไปและสำรวจว่าเหตุใดจุดข้อมูลบางจุดจึงไม่ปรากฏในตัวอย่างที่รวบรวม
กลุ่มแยก
คลัสเตอร์เป็นกลุ่มของจุดข้อมูลแบบแยกส่วน แผนภาพเส้น ซึ่งเป็นวิธีหนึ่งในการแสดงชุดข้อมูล คือเส้นที่มีเครื่องหมาย "x" อยู่เหนือตัวเลขที่ระบุเพื่อแสดงถึงความถี่ของการเกิดในชุดข้อมูล คลัสเตอร์จะแสดงเป็นชุดของเครื่องหมาย "x" เหล่านี้ในช่วงเวลาสั้นๆ หรือชุดย่อยของข้อมูล ตัวอย่างเช่น ถ้าคะแนนสอบของชั้นเรียนที่มีนักเรียน 10 คนคือ 74, 75, 80, 72, 74, 75, 76, 86, 88 และ 73 เครื่องหมาย "x" มากที่สุดในโครงเรื่องจะอยู่ใน 72- ช่วงคะแนนถึง -76 นี่จะเป็นตัวแทนของคลัสเตอร์ข้อมูล สังเกตว่าความถี่สำหรับ 74 และ 75 เป็นสอง แต่สำหรับคะแนนอื่นๆ ทั้งหมด เป็นหนึ่งคะแนน
สุดขีด
ค่าผิดปกติคือค่าสุดขั้ว -- จุดข้อมูลที่อยู่นอกค่าอื่นๆ ในชุดข้อมูลอย่างมีนัยสำคัญ ค่าผิดปกติต้องน้อยกว่าหรือมากกว่าตัวเลขส่วนใหญ่ในชุดข้อมูลอย่างมีนัยสำคัญ คำจำกัดความของคำว่า "สุดโต่ง" ขึ้นอยู่กับสถานการณ์และความเห็นเป็นเอกฉันท์ของนักวิเคราะห์ที่เกี่ยวข้องในการวิจัย ค่าผิดปกติอาจเป็นจุดข้อมูลที่ไม่ถูกต้อง หรือที่เรียกว่าสัญญาณรบกวน หรืออาจมีข้อมูลที่มีค่าเกี่ยวกับปรากฏการณ์ที่กำลังตรวจสอบและวิธีการรวบรวมข้อมูลเอง ตัวอย่างเช่น หากคะแนนชั้นเรียนส่วนใหญ่อยู่ในช่วง 70-80 แต่คะแนนสองสามคะแนนอยู่ในช่วง 50 ที่ต่ำ อาจแสดงถึงค่าผิดปกติ
วางมันทั้งหมดเข้าด้วยกัน
ช่องว่าง ค่าผิดปกติ และคลัสเตอร์ในชุดข้อมูลอาจส่งผลต่อผลลัพธ์ของการวิเคราะห์ทางคณิตศาสตร์ ช่องว่างและคลัสเตอร์อาจแสดงข้อผิดพลาดในวิธีการรวบรวมข้อมูล ตัวอย่างเช่น หากการสำรวจทางโทรศัพท์โพลเฉพาะรหัสพื้นที่บางอย่าง เช่น ที่อยู่อาศัยที่มีรายได้ต่ำหรือย่านชานเมืองระดับไฮเอนด์ พื้นที่ที่อยู่อาศัยและไม่ใช่แบบกว้างๆ ของประชากร มีโอกาสจะมีช่องว่างและคลัสเตอร์ในข้อมูล ค่าผิดปกติสามารถบิดเบือนค่าเฉลี่ยหรือค่าเฉลี่ยของชุดข้อมูลได้ ตัวอย่างเช่น ค่าเฉลี่ยหรือค่าเฉลี่ยของชุดข้อมูลที่ประกอบด้วยตัวเลขสี่ตัว -- 50, 55, 65 และ 90 -- คือ 65 อย่างไรก็ตาม ถ้าไม่มีค่าเกิน 90 ค่าเฉลี่ยจะอยู่ที่ 57