Forenkle sammenligninger af antal sæt, især store antal sæt, ved at beregne centerværdierne ved hjælp af middel, tilstand og median. Brug områdene og standardafvigelserne for sætene til at undersøge variabiliteten af data.
Gennemsnittet identificerer gennemsnitsværdien af antallet af tal. Overvej f.eks. Datasættet, der indeholder værdierne 20, 24, 25, 36, 25, 22, 23.
For at finde gennemsnittet skal du bruge formlen: Middel er lig summen af tallene i datasættet divideret med antallet af værdier i datasættet. I matematiske termer:
\ text {Mean} = \ frac {\ text {sum af alle termer}} {\ text {hvor mange udtryk eller værdier i sættet}}
Medianen identificerer midtpunktet eller den midterste værdi af et sæt tal.
Sæt tallene i rækkefølge fra mindste til største. Brug eksempelsættet med værdier: 20, 24, 25, 36, 25, 22, 23. Placeret i rækkefølge bliver sættet: 20, 22, 23, 24, 25, 25, 36.
Hvis antallet af tal har et lige antal værdier, skal du beregne gennemsnittet af de to midterværdier. Antag for eksempel, at sæt med tal indeholder værdierne 22, 23, 25, 26. Midten ligger mellem 23 og 25. Tilføjelse af 23 og 25 giver 48. At dividere 48 med to giver en medianværdi på 24.
Tilstanden identificerer den eller de mest almindelige værdier i datasættet. Afhængigt af dataene kan der være en eller flere tilstande eller slet ingen tilstand.
Ligesom at finde medianen, bestil datasættet fra mindste til største. I eksempelsættet bliver de ordnede værdier: 20, 22, 23, 24, 25, 25, 36.
En tilstand opstår, når værdier gentages. I eksempelsættet forekommer værdien 25 to gange. Ingen andre tal gentages. Derfor er tilstanden værdien 25.
I nogle datasæt forekommer mere end én tilstand. Datasættet 22, 23, 23, 24, 27, 27, 29 indeholder to tilstande, en hver på 23 og 27. Andre datasæt kan have mere end to tilstande, kan have tilstande med mere end to tal (som 23, 23, 24, 24, 24, 28, 29: tilstand er lig med 24) eller måske slet ikke har nogen tilstande (som 21, 23, 24, 25, 26, 27, 29). Tilstanden kan forekomme overalt i datasættet, ikke kun i midten.
Område viser den matematiske afstand mellem de laveste og højeste værdier i datasættet. Område måler datasættets variation. Et bredt område indikerer større variation i dataene eller måske en enkelt outlier langt fra resten af dataene. Outliers kan skæve eller skifte middelværdien nok til at påvirke dataanalysen.
I prøvesættet overstiger den høje dataværdi på 36 den tidligere værdi, 25, med 11. Denne værdi virker ekstrem i betragtning af de andre værdier i sættet. Værdien af 36 kan være et outlier datapunkt.
Standardafvigelse måler datasættets variation. Ligesom rækkevidde indikerer en mindre standardafvigelse mindre variation.
At finde standardafvigelse kræver sumning af den kvadratiske forskel mellem hvert datapunkt og middelværdien [∑ (x − µ)2], tilføjer alle firkanterne, dividerer summen med en mindre end antallet af værdier (N- 1) og endelig beregning af kvadratroden af udbyttet. I en formel er dette:
Beregn gennemsnittet ved at tilføje alle datapunktværdierne og derefter dividere med antallet af datapunkter. I prøvedatasættet
Del summen, 175, med antallet af datapunkter, 7 eller
Træk derefter gennemsnittet fra hvert datapunkt, og kvadrater derefter hver forskel. Formlen ser sådan ud:
hvor ∑ betyder sum,xjeg repræsenterer hver datasætværdi ogµrepræsenterer middelværdien. Fortsat med eksempelsættet bliver værdierne:
20-25 = -5 \ tekst {og} -5 ^ 2 = 25 \\ 24-25 = -1 \ tekst {og} -1 ^ 2 = 1 \\ 25-25 = 0 \ tekst {og} 0 ^ 2 = 0 \\ 36-25 = 11 \ tekst {og} 11 ^ 2 = 121 \\ 25-25 = 0 \ tekst {og} 0 ^ 2 = 0 \\ 22-25 = -3 \ tekst {og} -3 ^ 2 = 9 \\ 23- 25 = -2 \ tekst {og} -2^2=4
Del summen af de kvadratiske forskelle med en mindre end antallet af datapunkter. Eksemplets datasæt har 7 værdier, såN- 1 er lig med 7 - 1 = 6. Summen af de kvadratiske forskelle, 160, divideret med 6, svarer til cirka 26,6667.
Beregn standardafvigelsen ved at finde kvadratroden af divisionen efterN− 1. I eksemplet svarer kvadratroden på 26.6667 til cirka 5.164. Derfor er standardafvigelsen lig med ca. 5.164.
Standardafvigelse hjælper med at evaluere data. Tal i datasættet, der falder inden for en standardafvigelse af gennemsnittet, er en del af datasættet. Tal, der falder uden for to standardafvigelser, er ekstreme værdier eller outliers. I eksempelsættet ligger værdien 36 mere end to standardafvigelser fra gennemsnittet, så 36 er en outlier. Outliers kan repræsentere fejlagtige data eller kan foreslå uforudsete omstændigheder og bør overvejes nøje, når de fortolker data.