Szórás vs kovariancia
A variancia és a kovariancia a statisztikákban használt két mérőszám. A variancia az adatok szórásának mértéke, a kovariancia pedig két valószínűségi változó együttes változásának mértékét jelzi. A variancia inkább intuitív fogalom, de a kovariancia matematikailag definiálva eleinte nem annyira intuitív.
További információ a Variance-ról
A variancia az adatok szórásának mértéke az eloszlás átlagértékétől. Megmondja, hogy az adatpontok milyen messze vannak az eloszlás átlagától. Ez a valószínűségi eloszlás egyik elsődleges leírója és az eloszlás egyik mozzanata. Ezenkívül a variancia a sokaság paramétere, és a mintának a sokaságtól való eltérése a sokaság szórásának becsléseként szolgál. Egyrészt a szórás négyzeteként definiálható.
Egyszerű nyelven úgy írható le, mint az egyes adatpontok közötti távolság és az eloszlás átlaga négyzeteinek átlaga. A szórás kiszámításához a következő képletet használjuk.
Var(X)=E[(X-µ)2] egy populációhoz, és
Var(X)=E[(X-‾x)2] egy mintához
Tovább egyszerűsíthető Var(X)=E[X2]-(E[X])2 megadásával.
A Variance rendelkezik néhány aláírási tulajdonsággal, és gyakran használják a statisztikákban a használat egyszerűsítése érdekében. A szórás nem negatív, mert a távolságok négyzete. A variancia tartománya azonban nem korlátozott, és az adott eloszlástól függ. Egy állandó valószínűségi változó varianciája nulla, és a szórás nem változik a helyparaméterhez képest.
További információ a kovarianciáról
A statisztikai elméletben a kovariancia annak mértéke, hogy két valószínűségi változó együtt mennyit változik. Más szavakkal, a kovariancia a két valószínűségi változó közötti korreláció erősségének mértéke. Ezenkívül két valószínűségi változó variancia fogalmának általánosításának is tekinthető.
Két X és Y valószínűségi változó kovarianciája, amelyek együttesen eloszlanak véges második impulzussal, σXY=E[(X-E[X])(Y-E[) néven ismert. Y])]. Ebből a variancia a kovariancia speciális esetének tekinthető, ahol két változó azonos. Cov(X, X)=Var(X)
A kovariancia normalizálásával megkaphatjuk a lineáris korrelációs együtthatót vagy a Pearson-féle korrelációs együtthatót, amely ρ=E[(X-E[X])(Y-E[Y])]/(σ X σY)=(Cov(X, Y))/(σX σY )
Grafikusan az adatpontpárok közötti kovariancia a téglalap területeként tekinthető úgy, hogy az adatpontok az ellenkező csúcsokban vannak. Értelmezhető a két adatpont közötti távolság nagyságának mértékeként. A teljes sokaságra vonatkozó téglalapokat figyelembe véve az összes adatpontnak megfelelő téglalapok átfedése tekinthető az elválasztás erősségének; a két változó varianciája. A kovariancia két dimenzióban van, két változó miatt, de ha egy változóra egyszerűsítjük, akkor az egyes varianciája az egyik dimenzió elválasztásaként jelenik meg.
Mi a különbség a variancia és a kovariancia között?
• A variancia a szórás/szórás mértéke egy populációban, míg a kovariancia két valószínűségi változó variációjának vagy a korreláció erősségének mértéke.
• A variancia a kovariancia speciális esetének tekinthető.
• A variancia és a kovariancia az adatértékek nagyságától függ, és nem hasonlíthatók össze; ezért normalizálódnak. A kovarianciát a korrelációs együtthatóvá normalizáljuk (osztva a két valószínűségi változó szórásának szorzatával), a varanciát pedig a szórással (négyzetgyök felvételével)