Népesség vs minta szórása
A statisztikában számos indexet használnak egy adatsor leírására, amely megfelel annak központi tendenciájának, szórásának és ferdeségének. A szórás az adathalmaz közepétől való eloszlás egyik leggyakoribb mértéke.
Gyakorlati nehézségek miatt nem lehet majd felhasználni a teljes populáció adatait egy hipotézis tesztelésekor. Ezért a mintákból származó adatértékeket használjuk fel, hogy következtetéseket vonjunk le a sokaságra. Ilyen helyzetben ezeket becsléseknek nevezzük, mivel ezek a populációs paraméterek értékeit becsülik meg.
Rendkívül fontos, hogy elfogulatlan becsléseket használjunk a következtetésekhez. Egy becslőt torzítatlannak mondunk, ha a becslő várható értéke megegyezik a populációs paraméterrel. Például a mintaátlagot használjuk a sokaság átlagának elfogulatlan becsléseként. (Matematikailag kimutatható, hogy a mintaátlag várható értéke megegyezik a sokaság átlagával). A sokaság szórásának becslése esetén a minta szórása is egy torzítatlan becslés.
Mi a populáció szórása?
Amikor a teljes népesség adatait figyelembe lehet venni (például népszámlálás esetén), akkor lehetséges a népesség szórásának kiszámítása. A sokaság szórásának kiszámításához először az adatértékek eltérését kell kiszámítani a sokaság átlagától. Az eltérések négyzetes középértékét (négyzetes átlagát) a sokaság szórásának nevezzük.
Egy 10 fős osztályban könnyen gyűjthetők adatok a tanulókról. Ha egy hipotézist tesztelünk ezen a hallgatói populáción, akkor nincs szükség mintaértékek használatára. Például a 10 diák súlyát (kilogrammban) 70, 62, 65, 72, 80, 70, 63, 72, 77 és 79 értékre mérjük. Ekkor a tíz ember átlagos súlya (kilogrammban) (70+62+65+72+80+70+63+72+77+79)/10, ami 71 (kilogrammban). Ez a népesség átlaga.
A sokaság szórásának kiszámításához az átlagtól való eltéréseket számítjuk ki. Az átlagtól való megfelelő eltérések: (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 és (79 – 71)=8. Az eltérés négyzeteinek összege (-1)2 + (-9)2 + (-6)2 + 1 2 + 92 + (-1)2 + (-8)2+ 12 + 62 + 82 =366. A sokaság szórása √(366/10)=6,05 (kilogrammban). 71 az osztály tanulóinak pontos átlagsúlya és 6.05 a súly pontos szórása 71-től.
Mi a minta szórása?
Ha egy (n méretű) mintából származó adatokat használnak fel a sokaság paramétereinek becslésére, a minta szórása kiszámításra kerül. Először az adatértékek mintaátlagtól való eltérését számítjuk ki. Mivel a mintaátlagot a sokaság átlaga helyett használjuk (ami ismeretlen), a másodfokú átlag számítása nem megfelelő. A mintaátlag használatának kompenzálására az eltérések négyzetösszegét n helyett (n-1) osztjuk. A minta szórása ennek négyzetgyöke. Matematikai szimbólumokban S=√{∑(xi-ẍ)2 / (n-1)}, ahol S a minta szórása, ẍ a minta átlaga és xi's az adatpontok.
Most tegyük fel, hogy az előző példában a népesség az egész iskola tanulói. Ekkor az osztály csak minta lesz. Ha ezt a mintát használjuk a becsléshez, a minta szórása √(366/9)=6 lesz.38 (kilogrammban), mivel a 366-ot 10 (mintanagyság) helyett 9-cel osztották. Meg kell jegyezni, hogy ez nem garantált a pontos populáció szórásának értéke. Ez csupán becslés.
Mi a különbség a sokaság szórása és a minta szórása között?
• A populáció szórása a pontos paraméterérték, amelyet a középponttól való diszperzió mérésére használnak, míg a minta szórása egy torzítatlan becslés erre.
• A populáció szórását akkor számítjuk ki, ha a populáció minden egyedére vonatkozó összes adat ismert. Ellenkező esetben a minta szórása kerül kiszámításra.
• A populáció szórását a következő képlet adja meg: σ=√{ ∑(xi-µ)2/ n} ahol µ a populáció átlaga és n a populáció mérete, de a a minta szórását a következőképpen adja meg: S=√{ ∑(xi-ẍ)2 / (n-1)} ahol ẍ a minta átlaga és n a minta mérete.