Hur man beräknar avvikare

En outlier är ett värde i en datamängd som är långt ifrån de andra värdena. Outliers kan orsakas av experiment- eller mätfel eller av en lång-tailed population. I de tidigare fallen kan det vara önskvärt att identifiera avvikare och ta bort dem från data innan du utför en statistisk analys, eftersom de kan kasta bort resultaten så att de inte representerar urvalet exakt befolkning. Det enklaste sättet att identifiera avvikare är med kvartilmetoden.

Sortera data i stigande ordning. Ta till exempel datamängden {4, 5, 2, 3, 15, 3, 3, 5}. Sorterat är exempeluppsättningen {2, 3, 3, 3, 4, 5, 5, 15}.

Hitta medianen. Detta är antalet vid vilket hälften av datapunkterna är större och hälften är mindre. Om det finns ett jämnt antal datapunkter, är de två mellersta medelvärdet. För exempeluppsättningen är mittpunkterna 3 och 4, så medianen är (3 + 4) / 2 = 3,5.

Hitta den övre kvartilen, Q2; detta är datapunkten där 25 procent av uppgifterna är större. Om datamängden är jämn, genomsnitt de 2 poängen runt kvartilen. För exempeluppsättningen är detta (5 + 5) / 2 = 5.

instagram story viewer

Hitta den nedre kvartilen, Q1; detta är datapunkten där 25 procent av uppgifterna är mindre. Om datamängden är jämn, genomsnitt de 2 poängen runt kvartilen. För exempeldata, (3 + 3) / 2 = 3.

Subtrahera den nedre kvartilen från den högre kvartilen för att få interkvartilområdet, IQ. För exemplets datauppsättning, Q2 - Q1 = 5 - 3 = 2.

Multiplicera intervallet med 1,5. Lägg till detta i den övre kvartilen och subtrahera den från den nedre kvartilen. Varje datapunkt utanför dessa värden är en mild avvikare. För exempeluppsättningen, 1,5 x 2 = 3; alltså 3 - 3 = 0 och 5 + 3 = 8. Så varje värde mindre än 0 eller större än 8 skulle vara en mild outlier. Detta innebär att 15 kvalificerar sig som en mild avvikare.

Multiplicera intervallet med 3. Lägg till detta i den övre kvartilen och subtrahera den från den nedre kvartilen. Varje datapunkt utanför dessa värden är en extrem outlier. För exempeluppsättningen är 3 x 2 = 6; alltså 3 - 6 = –3 och 5 + 6 = 11. Så vilket värde som är mindre än –3 eller större än 11 ​​skulle vara ett extremt outlier. Detta innebär att 15 kvalificerar sig som en extrem outlier.

Teachs.ru
  • Dela med sig
instagram viewer