Szórás vs standard eltérés
Szórás vs standard eltérés
A leíró és következtetéses statisztikában számos indexet használnak egy adatsor leírására, amely megfelel annak központi tendenciájának, szórásának és ferdeségének. Statisztikai következtetésként ezeket általában becslőnek nevezik, mivel a populációs paraméterek értékeit becsülik meg.
A diszperzió az adatok eloszlásának mértéke az adatkészlet közepe körül. A szórás az egyik leggyakrabban használt diszperziómérés. Az egyes adatpontok átlagtól való eltérését figyelembe veszik a szórás kiszámításakor. Ezért vitatható, hogy a szórás az átlaggal együtt majdnem elegendő képet ad egy adathalmazról.
Vegye fontolóra a következő adatkészletet. 10 ember súlya (kilogrammban) 70, 62, 65, 72, 80, 70, 63, 72, 77 és 79. Ekkor a tíz ember átlagos súlya (kilogrammban) 71 (kilogrammban).).
Mi az eltérés?
A statisztikában az eltérés azt az összeget jelenti, amellyel egy adatpont eltér egy rögzített értéktől, például az átlagtól. Általában legyen k fix érték, és x1, x2, …, xn jelöljön egy adatot készlet. Ekkor xj eltérését k-tól a következőképpen definiáljuk: (xj– k).
Például a fenti adathalmazban a megfelelő eltérések az átlagtól: (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 - 71)=9, (70 - 71)=-1, (63 - 71)=-8, (72 - 71)=1, (77 - 71)=6 és (79 - 71)=8.
Mi az a szórás?
Amikor a teljes népesség adatait figyelembe lehet venni (például népszámlálás esetén), akkor lehetséges a népesség szórásának kiszámítása. A sokaság szórásának kiszámításához először az adatértékek eltérését kell kiszámítani a sokaság átlagától. Az eltérések négyzetgyökértékét (négyzetes átlagát) populációs szórásnak nevezzük. Szimbólumokban σ=√{ ∑(xi-µ)2 / n} ahol µ a populáció átlaga és n a populáció mérete.
Ha egy (n méretű) mintából származó adatokat használunk a sokaság paramétereinek becslésére, a minta szórása kiszámításra kerül. Először az adatértékek mintaátlagtól való eltérését számítjuk ki. Mivel a mintaátlagot a sokaság átlaga helyett használjuk (ami ismeretlen), a másodfokú átlag számítása nem megfelelő. A mintaátlag használatának kompenzálására az eltérések négyzetösszegét n helyett (n-1) osztjuk. A minta szórása ennek négyzetgyöke. Matematikai szimbólumokban S=√{ ∑(xi-ẍ)2 / (n-1)}, ahol S a minta szórása, ẍ a minta átlaga és xi-k az adatpontok.
Az előző adathalmazban az eltérés négyzeteinek összege (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1) 2 + (-8)2 + 12 + 62 + 82=366. Így a sokaság szórása √(366/10)=6,05 (kilogrammban). (Feltételezve, hogy a vizsgált sokaság abból a 10 személyből áll, akiktől az adatokat vették.)
Mi a különbség az eltérés és a szórás között?
• A szórás egy statisztikai mutató és egy becslés, de az eltérés nem.
• A szórás egy adathalmaz középponttól való szóródásának mértéke, míg az eltérés arra utal, hogy egy adatpont mennyivel tér el egy rögzített értéktől.