Działalność biznesowa, rządowa i akademicka prawie zawsze wymaga gromadzenia i analizy danych. Jednym ze sposobów przedstawiania danych liczbowych są wykresy, histogramy i wykresy. Te techniki wizualizacji pozwalają ludziom uzyskać lepszy wgląd w problemy i opracowywać rozwiązania. Luki, klastry i wartości odstające to cechy zestawów danych, które wpływają na analizę matematyczną i są łatwo widoczne na reprezentacjach wizualnych.
Dziury w danych
Luki odnoszą się do brakujących obszarów w zbiorze danych. Na przykład, jeśli eksperyment naukowy zbiera dane o temperaturze w zakresie 50 stopni Fahrenheita do 100 stopni Fahrenheita, ale nic między 70 a 80 stopni, co oznaczałoby lukę w danych zestaw. Wykres liniowy tego zestawu danych miałby znaki „x” dla temperatur między 50 a 70 i ponownie między 80 a 100, ale nie byłoby nic między 70 a 80. Naukowcy mogą sięgnąć głębiej i zbadać, dlaczego niektóre punkty danych nie pojawiają się w zebranej próbce.
Grupy izolowane
Klastry to izolowane grupy punktów danych. Wykresy liniowe, które są jednym ze sposobów przedstawiania zestawów danych, to linie ze znacznikami „x” umieszczonymi nad określonymi liczbami w celu zobrazowania ich częstotliwości występowania w zestawie danych. Klaster jest przedstawiony jako zbiór tych znaków „x” w małym przedziale lub podzbiorze danych. Na przykład, jeśli wyniki egzaminu dla klasy 10 uczniów to 74, 75, 80, 72, 74, 75, 76, 86, 88 i 73, najwięcej znaków „x” na wykresie liniowym będzie w 72- do 76 punktów. Stanowiłoby to klaster danych. Zauważ, że częstotliwość dla 74 i 75 to dwa, ale dla wszystkich innych wyników jest to jeden.
Na krańcach
Wartości odstające to wartości ekstremalne — punkty danych, które znacznie leżą poza innymi wartościami w zestawie danych. Wartość odstająca musi być znacznie mniejsza lub większa niż większość liczb w zbiorze danych. Definicja „skrajności” zależy od okoliczności i konsensusu analityków zaangażowanych w badanie. Wartości odstające mogą być złymi punktami danych, znanymi również jako szum, lub mogą zawierać cenne informacje o badanym zjawisku i samej metodologii zbierania danych. Na przykład, jeśli wyniki klas mieszczą się głównie w przedziale od 70 do 80, ale kilka wyników znajduje się w niskich 50, mogą one reprezentować wartości odstające.
Kładąc wszystko razem
Luki, wartości odstające i klastry w zestawach danych mogą wpływać na wyniki analizy matematycznej. Luki i klastry mogą stanowić błędy w metodologii zbierania danych. Na przykład, jeśli ankieta telefoniczna obejmuje tylko niektóre numery kierunkowe, takie jak osiedla mieszkaniowe o niskich dochodach lub ekskluzywne podmiejskie obszary mieszkalne, a nie szeroki przekrój populacji, są szanse, że w danych pojawią się luki i skupiska. Wartości odstające mogą zniekształcać średnią lub średnią wartość zbioru danych. Na przykład średnia lub średnia wartość zestawu danych składającego się z czterech liczb — 50, 55, 65 i 90 — wynosi 65. Jednak bez wartości odstającej 90 średnia wynosi około 57.