Pokud jde o vědecké studie, velikost vzorku je zásadním faktorem pro kvalitní výzkum. Velikost vzorku, někdy vyjádřená jako n, je počet jednotlivých údajů použitých k výpočtu souboru statistik. Větší velikosti vzorků umožňují vědcům lépe určit průměrné hodnoty jejich dat a vyhnout se chybám při testování malého počtu případně atypických vzorků.
TL; DR (příliš dlouhý; Nečetl)
Velikost vzorku je důležitým hlediskem pro výzkum. Větší velikosti vzorků poskytují přesnější střední hodnoty, identifikují odlehlé hodnoty, které by mohly zkosit data v menším vzorku a poskytují menší míru chyby.
Velikost vzorku
Velikost vzorku je počet kusů informací testovaných v průzkumu nebo experimentu. Například pokud testujete 100 vzorků mořské vody na zbytky oleje, velikost vašeho vzorku je 100. Pokud zkoumáte známky úzkosti u 20 000 lidí, velikost vašeho vzorku je 20 000. Větší velikosti vzorků mají zjevnou výhodu v poskytování více dat pro práci výzkumných pracovníků; ale velké experimenty o velikosti vzorku vyžadují větší finanční a časové závazky.
Střední hodnota a odlehlé hodnoty
Větší velikosti vzorků pomáhají určovat průměrnou hodnotu kvality mezi testovanými vzorky - tento průměr je znamenat. Čím větší je velikost vzorku, tím přesnější je průměr. Například pokud zjistíte, že mezi 40 lidmi je průměrná výška 5 stop, 4 palce, ale mezi 100 lidmi je průměrná výška 5 stop, 3 palce, druhé měření je lepší odhad průměrné výšky jednotlivce, protože testujete podstatně více předměty. Stanovení průměru také umožňuje vědcům snáze určit odlehlé hodnoty. Odlehlá hodnota je část dat, která se výrazně liší od střední hodnoty a může představovat zajímavý bod pro výzkum. Na základě průměrné výšky by tedy někdo s výškou 6 stop a 8 palců byl odlehlým datovým bodem.
Nebezpečí malých vzorků
Možnost odlehlých hodnot je součástí toho, co dělá důležitou velkou velikost vzorku. Řekněme například, že zkoumáte 4 lidi o jejich politické příslušnosti a jeden patří do nezávislé strany. Jelikož se jedná o jednoho jednotlivce ve velikosti vzorku 4, vaše statistika ukáže, že 25 procent populace patří nezávislé straně, což je pravděpodobně nepřesná extrapolace. Zvětšením velikosti vzorku se vyhnete zavádějícím statistikám, pokud se ve vzorku objeví odlehlá hodnota.
Okraj chyby
Velikost vzorku přímo souvisí se statistikou hranice chybynebo jak přesné statistiky lze vypočítat. U otázek typu ano-ne-ne, například toho, zda jednotlivec vlastní auto, můžete určit rozpětí chyba pro statistiku vydělením 1 druhou odmocninou velikosti vzorku a vynásobením 100. Celkem je to procento. Například velikost vzorku 100 bude mít 10% míru chyby. Při měření numerických vlastností se střední hodnotou, jako je výška nebo hmotnost, vynásobte tento součet dvojnásobkem hodnoty standardní odchylka dat, která měří, jak jsou rozložené hodnoty dat od střední hodnoty. V obou případech platí, že čím větší je velikost vzorku, tím menší je hranice chyby.