Különbség az adatbányászat és az adatraktározás között

Különbség az adatbányászat és az adatraktározás között
Különbség az adatbányászat és az adatraktározás között

Videó: Különbség az adatbányászat és az adatraktározás között

Videó: Különbség az adatbányászat és az adatraktározás között
Videó: Параллелограммы — Геометрия 2024, November
Anonim

Adatbányászat kontra Adattárház

Az adatbányászat és az adattárház nagyon hatékony és népszerű technikák az adatok elemzésére. Azok a felhasználók, akik hajlamosak a statisztikákra, az adatbányászatot használják. Statisztikai modelleket használnak az adatok rejtett mintáinak keresésére. Az adatbányászok abban érdekeltek, hogy hasznos kapcsolatokat találjanak a különböző adatelemek között, ami végső soron nyereséges a vállalkozások számára. Másrészről azonban azok az adatszakértők, akik képesek közvetlenül elemezni a vállalkozás dimenzióit, hajlamosak adattárházakat használni.

Az adatbányászat más néven Knowledge Discovery in data (KDD). Mint fentebb említettük, ez a számítástechnika olyan területe, amely korábban ismeretlen és érdekes információk nyers adatokból való kinyerésével foglalkozik. Az adatok exponenciális növekedése miatt, különösen az olyan területeken, mint az üzleti élet, az adatbányászat nagyon fontos eszközzé vált ennek a rengeteg adatnak az üzleti intelligenciává történő átalakítására, mivel a minták kézi kinyerése az elmúlt évtizedekben látszólag lehetetlenné vált. Például jelenleg különféle alkalmazásokhoz használják, például közösségi hálózatok elemzéséhez, csalások felderítéséhez és marketinghez. Az adatbányászat általában a következő négy feladattal foglalkozik: klaszterezés, osztályozás, regresszió és asszociáció. A klaszterezés hasonló csoportok azonosítását jelenti strukturálatlan adatokból. Az osztályozás olyan tanulási szabályok, amelyek új adatokra alkalmazhatók, és jellemzően a következő lépéseket tartalmazzák: adatok előfeldolgozása, modellezés tervezése, tanulás/szolgáltatás kiválasztása és Értékelés/validálás. A regresszió olyan függvények keresése, amelyek minimális hibával modellezhetik az adatokat. Az asszociáció pedig a változók közötti kapcsolatokat keresi. Az adatbányászatot általában olyan kérdések megválaszolására használják, mint például, hogy melyek azok a fő termékek, amelyek segíthetnek a következő évben magas profit elérésében a Wal-Martban?

Amint fentebb említettük, az adattárházat az adatok elemzésére is használják, de különböző felhasználói csoportok, és kissé eltérő célt szem előtt tartva. Ha például a kiskereskedelmi szektorról van szó, az adattárház felhasználóit inkább az foglalkoztatja, hogy milyen vásárlások népszerűek a vásárlók körében, így az elemzés eredményei a vásárlói élmény javításával segíthetik a vásárlót. Az adatbányászok azonban először feltételeznek egy hipotézist, például azt, hogy mely vásárlók vásárolnak egy bizonyos típusú terméket, és elemzik az adatokat, hogy teszteljék a hipotézist. Az adattárolást egy nagy kereskedő végezheti, aki kezdetben azonos méretű termékekkel látja el üzleteit, hogy később kiderüljön, hogy a New York-i üzletek sokkal gyorsabban értékesítik a kisebb méretű készleteket, mint a chicagói üzletekben. Tehát, ha ezt az eredményt nézzük, a kereskedő a chicagói üzletekhez képest kisebb méretekkel tudja feltölteni a New York-i üzletet.

Tehát, amint jól látja, ez a két elemzési típus szabad szemmel nézve azonos jellegűnek tűnik. Mindketten aggódnak a nyereség növelése miatt a korábbi adatok alapján. De természetesen vannak alapvető különbségek. Egyszerűen fogalmazva, az adatbányászat és az adattárház szolgáltatás különböző típusú elemzések biztosítására szolgál, de határozottan különböző típusú felhasználók számára. Más szavakkal, az adatbányászat korrelációkat, mintákat keres a statisztikai hipotézis alátámasztására. Az adattárház azonban egy viszonylag tágabb kérdésre ad választ, és onnantól kezdve feldarabolja az adatokat, hogy felismerje a jövőbeni fejlesztési lehetőségeket.

Ajánlott: