Különbség a hierarchikus és a részleges klaszterezés között

Különbség a hierarchikus és a részleges klaszterezés között
Különbség a hierarchikus és a részleges klaszterezés között

Videó: Különbség a hierarchikus és a részleges klaszterezés között

Videó: Különbség a hierarchikus és a részleges klaszterezés között
Videó: Olyan büdi tud lenni ...😂 #ferrari #sportcar #elmenyvezetes #elmenyplaza #cziganyjudit 2024, December
Anonim

Hierarchikus vs partíciós klaszterezés

A klaszterezés egy gépi tanulási technika az adatok elemzésére és a hasonló adatok csoportjaira való felosztására. Ezeket a csoportokat vagy hasonló adatok halmazait klasztereknek nevezzük. A fürtelemzés olyan fürtözési algoritmusokat vizsgál, amelyek automatikusan azonosítani tudják a fürtöket. A hierarchikus és a partíciós a klaszterező algoritmusok két ilyen osztálya. A hierarchikus klaszterező algoritmusok az adatokat fürtök hierarchiájára bontják. A parciális algoritmusok az adatkészletet kölcsönösen diszjunkt partíciókra osztják fel.

Mi az a hierarchikus klaszterezés?

A hierarchikus fürtözési algoritmusok megismétlik a kisebb klaszterek nagyobb klaszterekké való egyesítése, vagy a nagyobb klaszterek felosztása kisebbek ciklusát. Akárhogy is, a klaszterek hierarchiáját állítja elő, amelyet dendogramnak neveznek. Az agglomeratív klaszterezési stratégia az alulról felfelé irányuló megközelítést alkalmazza, amikor a klasztereket nagyobb klaszterekbe vonja össze, míg az osztó klaszterezési stratégia a felülről lefelé irányuló megközelítést alkalmazza a kisebbekre való felosztásra. Jellemzően a mohó megközelítést használják annak eldöntésére, hogy mely nagyobb/kisebb klasztereket használja az összevonás/felosztás. Az euklideszi távolság, a manhattani távolság és a koszinusz-hasonlóság a numerikus adatokhoz leggyakrabban használt hasonlósági mérőszámok közé tartozik. A nem numerikus adatokhoz olyan mérőszámokat használnak, mint a Hamming-távolság. Fontos megjegyezni, hogy a tényleges megfigyelésekre (példányokra) nincs szükség a hierarchikus klaszterezéshez, mert csak a távolságok mátrixa elegendő. A dendogram a klaszterek vizuális megjelenítése, amely nagyon világosan jeleníti meg a hierarchiát. A felhasználó a dendogram vágási szintjétől függően különböző klaszterezést kaphat.

Mi az a partíciós klaszterezés?

A partíciós fürtözési algoritmusok különféle partíciókat generálnak, majd azokat valamilyen kritérium alapján értékelik. Nem hierarchikusnak is nevezik őket, mivel minden példány pontosan egy k, egymást kizáró klaszterben található. Mivel egy tipikus partíciós fürtözési algoritmusnak csak egy fürtkészlete a kimenete, a felhasználónak meg kell adnia a kívánt számú fürtöt (ezt általában k-nak hívják). Az egyik leggyakrabban használt partíciós klaszterező algoritmus a k-means klaszterező algoritmus. A felhasználónak meg kell adnia a klaszterek számát (k) az indítás előtt, és az algoritmus először kezdeményezi a k partíció középpontját (vagy centroidját). Dióhéjban, a k-means klaszterező algoritmus az aktuális központok alapján hozzárendeli a tagokat, és az aktuális tagok alapján újrabecsli a központokat. Ezt a két lépést addig ismételjük, amíg egy bizonyos klaszteren belüli hasonlósági célfüggvényt és klaszterek közötti eltérési célfüggvényt optimalizálunk. Ezért a központok ésszerű inicializálása nagyon fontos tényező a partíciós klaszterezési algoritmusok minőségi eredményeinek megszerzésében.

Mi a különbség a hierarchikus és a részleges klaszterezés között?

A hierarchikus és a részleges fürtözés alapvető különbségeket mutat a futási idő, a feltételezések, a bemeneti paraméterek és az eredő fürtök tekintetében. A partíciós fürtözés általában gyorsabb, mint a hierarchikus fürtözés. A hierarchikus klaszterezés csak egy hasonlósági mérőszámot igényel, míg a partíciós klaszterezés erősebb feltételezéseket igényel, például a klaszterek számát és a kezdeti központokat. A hierarchikus fürtözéshez nincs szükség bemeneti paraméterekre, míg a partíciós fürtözési algoritmusokhoz a fürtök száma szükséges a futáshoz. A hierarchikus klaszterezés a fürtök sokkal értelmesebb és szubjektívebb felosztását adja vissza, de a partíciós klaszterezés pontosan k klasztert eredményez. A hierarchikus klaszterezési algoritmusok alkalmasabbak kategorikus adatokra, amíg a hasonlósági mérték ennek megfelelően definiálható.

Ajánlott: