Forenkle sammenligninger av antall sett, spesielt store antall tall, ved å beregne midtverdiene ved hjelp av middel, modus og median. Bruk områdene og standardavvikene til settene for å undersøke variasjonen i data.
Gjennomsnittet identifiserer gjennomsnittsverdien for settet med tall. Tenk for eksempel datasettet som inneholder verdiene 20, 24, 25, 36, 25, 22, 23.
For å finne gjennomsnittet, bruk formelen: Gjennomsnitt er lik summen av tallene i datasettet delt med antall verdier i datasettet. I matematiske termer:
\ text {Mean} = \ frac {\ text {sum of all terms}} {\ text {hvor mange termer eller verdier i settet}}
Medianen identifiserer midtpunktet eller middelverdien til et sett med tall.
Sett tallene i rekkefølge fra minste til største. Bruk eksemplet med verdier: 20, 24, 25, 36, 25, 22, 23. Sett i rekkefølge blir settet: 20, 22, 23, 24, 25, 25, 36.
Hvis tallsettet har et jevnt antall verdier, beregner du gjennomsnittet av de to midtverdiene. Anta for eksempel at settet med tall inneholder verdiene 22, 23, 25, 26. Midten ligger mellom 23 og 25. Legge til 23 og 25 gir 48. Å dele 48 med to gir en medianverdi på 24.
Modusen identifiserer den eller de vanligste verdiene i datasettet. Avhengig av data kan det være en eller flere modi, eller ingen modus i det hele tatt.
Som å finne medianen, bestill datasettet fra minste til største. I eksempelsettet blir de ordnede verdiene: 20, 22, 23, 24, 25, 25, 36.
En modus oppstår når verdiene gjentas. I eksempelsettet oppstår verdien 25 to ganger. Ingen andre tall gjentas. Derfor er modusen verdien 25.
I noen datasett forekommer mer enn én modus. Datasettet 22, 23, 23, 24, 27, 27, 29 inneholder to modi, en hver på 23 og 27. Andre datasett kan ha mer enn to moduser, kan ha moduser med mer enn to tall (som 23, 23, 24, 24, 24, 28, 29: modus er lik 24) eller kanskje ikke har noen moduser i det hele tatt (som 21, 23, 24, 25, 26, 27, 29). Modusen kan forekomme hvor som helst i datasettet, ikke bare i midten.
Område viser den matematiske avstanden mellom de laveste og høyeste verdiene i datasettet. Område måler variasjonen i datasettet. Et bredt spekter indikerer større variasjon i dataene, eller kanskje en enkelt outlier langt fra resten av dataene. Outliers kan skjev eller skifte gjennomsnittsverdien nok til å påvirke dataanalysen.
I prøvesettet overstiger den høye dataværdien på 36 den forrige verdien, 25, med 11. Denne verdien virker ekstrem, gitt de andre verdiene i settet. Verdien på 36 kan være et outlier datapunkt.
Standardavvik måler variasjonen i datasettet. Som rekkevidde indikerer et mindre standardavvik mindre variasjon.
Å finne standardavvik krever å summere den kvadratiske forskjellen mellom hvert datapunkt og gjennomsnittet [∑ (x − µ)2], og legger til alle rutene, og deler summen med en mindre enn antall verdier (N- 1), og til slutt å beregne kvadratroten av utbyttet. I en formel er dette:
Beregn gjennomsnittet ved å legge til alle datapunktverdiene, og del deretter med antall datapunkter. I eksempeldatasettet,
Del summen, 175, med antall datapunkter, 7 eller
Deretter trekker du gjennomsnittet fra hvert datapunkt, og kvadrerer deretter hver forskjell. Formelen ser slik ut:
hvor ∑ betyr sum,xJeg representerer hver datasettverdi ogµrepresenterer middelverdien. Ved å fortsette med eksempelsettet blir verdiene:
20-25 = -5 \ tekst {og} -5 ^ 2 = 25 \\ 24-25 = -1 \ tekst {og} -1 ^ 2 = 1 \\ 25-25 = 0 \ tekst {og} 0 ^ 2 = 0 \\ 36-25 = 11 \ text {and} 11 ^ 2 = 121 \\ 25-25 = 0 \ text {and} 0 ^ 2 = 0 \\ 22-25 = -3 \ text {and} -3 ^ 2 = 9 \\ 23- 25 = -2 \ tekst {og} -2^2=4
Del summen av kvadratiske forskjeller med ett mindre enn antall datapunkter. Eksempeldatasettet har 7 verdier, såN- 1 er lik 7-1 = 6. Summen av kvadratforskjellene, 160, delt på 6, tilsvarer omtrent 26,6667.
Beregn standardavviket ved å finne kvadratroten til inndelingen etterN− 1. I eksemplet tilsvarer kvadratroten på 26.6667 omtrent 5.164. Derfor tilsvarer standardavviket omtrent 5.164.
Standardavvik hjelper til med å evaluere data. Tall i datasettet som faller innenfor ett standardavvik fra gjennomsnittet er en del av datasettet. Tall som faller utenfor to standardavvik er ekstreme verdier eller outliers. I eksempelsettet ligger verdien 36 mer enn to standardavvik fra gjennomsnittet, så 36 er en outlier. Outliers kan representere feil data eller kan antyde uforutsette omstendigheter og bør vurderes nøye når de tolker data.