Központi tendencia kontra diszperzió
A leíró és következtetéses statisztikában számos indexet használnak egy adatsor leírására, amely megfelel annak központi tendenciájának, szórásának és ferdeségének: ez a három legfontosabb tulajdonság, amely meghatározza az adathalmaz eloszlásának relatív alakját.
Mi a központi tendencia?
A központi tendencia az értékek eloszlásának középpontjára utal, és annak középpontját határozza meg. Az átlag, a mód és a medián a leggyakrabban használt indexek egy adatkészlet központi tendenciájának leírására. Ha egy adathalmaz szimmetrikus, akkor az adathalmaz mediánja és átlaga is egybeesik egymással.
Adott adathalmaz esetén az átlagot úgy számítjuk ki, hogy az összes adatérték összegét elosztjuk az adatok számával. Például 10 ember súlya (kilogrammban) 70, 62, 65, 72, 80, 70, 63, 72, 77 és 79. Ekkor a tíz ember átlagos súlya (kilogrammban) a következőképpen számítjuk ki. A súlyok összege 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Átlag=(összeg) / (adatok száma)=710 / 10=71 (kilogrammban). Nyilvánvaló, hogy a kiugró értékek (az adatpontok, amelyek eltérnek a normál trendtől) általában befolyásolják az átlagot. Így a kiugró értékek jelenlétében az átlag önmagában nem ad megfelelő képet az adathalmaz középpontjáról.
A medián az adathalmaz pontos közepén található adatpont. A medián kiszámításának egyik módja az adatpontok növekvő sorrendbe állítása, majd az adatpont középen történő elhelyezése. Például, ha egyszer megrendelte, az előző adatkészlet így néz ki: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Ezért (70+72)/2=71 középen van. Ebből látható, hogy a mediánnak nem kell szerepelnie az adathalmazban. A mediánt nem befolyásolja a kiugró értékek jelenléte. Ennélfogva a medián jobban méri a központi tendenciát kiugró értékek jelenlétében.
A mód a leggyakrabban előforduló érték az adatkészletben. Az előző példában a 70 és 72 érték egyaránt kétszer fordul elő, így mindkettő mód. Ez azt mutatja, hogy egyes eloszlásokban egynél több modális érték van. Ha csak egy mód van, akkor az adatkészletet unimodálisnak mondjuk, ebben az esetben az adatkészlet bimodális.
Mi az a diszperzió?
A diszperzió az eloszlás középpontjára vonatkozó adatok terjedésének mennyisége. A diszperzió leggyakrabban használt mértékei a tartomány és a szórása.
A tartomány egyszerűen a legmagasabb érték mínusz a legalacsonyabb érték. Az előző példában a legmagasabb érték 80, a legalacsonyabb érték pedig 62, tehát a tartomány 80-62=18. De a tartomány nem ad elegendő képet a diszperzióról.
A szórás kiszámításához először az adatértékek átlagtól való eltérését kell kiszámítani. Az eltérések négyzetgyökértékét szórásnak nevezzük. Az előző példában az átlagtól való megfelelő eltérések: (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 és (79 – 71)=8. az eltérés négyzete (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 A szórás √(366/10)=6,05 (kilogrammban). Hacsak az adathalmaz nem nagyon torz, ebből arra lehet következtetni, hogy az adatok többsége a 71±6,05 intervallumban van, és ez ebben a konkrét példában is így van.
Mi a különbség a központi tendencia és a diszperzió között?
• A centrális tendencia az értékek eloszlásának középpontjára utal, és annak középpontját határozza meg
• A diszperzió az adathalmaz közepére vonatkozó adatok terjedésének mennyisége.