KDD kontra adatbányászat
A KDD (Knowledge Discovery in Databases) a számítástechnika olyan területe, amely magában foglalja azokat az eszközöket és elméleteket, amelyek segítenek az embereknek hasznos és korábban ismeretlen információk (azaz ismeretek) kinyerésében a digitalizált adatok nagy gyűjteményéből. A KDD több lépésből áll, és ezek egyike az adatbányászat. Az adatbányászat egy meghatározott algoritmus alkalmazása az adatokból minták kinyerésére. Ennek ellenére a KDD és az adatbányászat felcserélhetően használhatók.
Mi az a KDD?
Amint fentebb említettük, a KDD a számítástechnika olyan területe, amely korábban ismeretlen és érdekes információk nyers adatokból való kinyerésével foglalkozik. A KDD az a teljes folyamat, amely során megpróbáljuk értelmezni az adatokat a megfelelő módszerek vagy technikák kidolgozásával. Ez a folyamat az alacsony szintű adatok más, kompaktabb, absztraktabb és hasznosabb formákra való leképezésével foglalkozik. Ezt rövid jelentések készítésével, az adatok előállítási folyamatának modellezésével és a jövőbeli esetek előrejelzésére alkalmas prediktív modellek fejlesztésével érik el. Az adatok exponenciális növekedése miatt, különösen az olyan területeken, mint az üzleti élet, a KDD nagyon fontos folyamattá vált ennek a rengeteg adatnak az üzleti intelligenciává történő átalakítására, mivel a minták kézi kinyerése az elmúlt évtizedekben látszólag lehetetlenné vált. Például jelenleg különféle alkalmazásokhoz használják, mint például a közösségi hálózatok elemzéséhez, a csalások felderítéséhez, a tudományhoz, a befektetésekhez, a gyártáshoz, a telekommunikációhoz, az adattisztításhoz, a sporthoz, az információkereséshez és nagyrészt a marketinghez. A KDD-t általában olyan kérdések megválaszolására használják, mint például, hogy melyek azok a fő termékek, amelyek segíthetnek a következő évben magas profit elérésében a Wal-Martban?. Ez a folyamat több lépésből áll. Az alkalmazási tartomány és a cél megértésének fejlesztésével kezdődik, majd létrehoz egy céladatkészletet. Ezt követi az adatok tisztítása, előfeldolgozása, redukálása és kivetítése. A következő lépés az adatbányászat (lásd alább) használata a minta azonosítására. Végül a felfedezett tudás vizualizálással és/vagy értelmezéssel konszolidálódik.
Mi az adatbányászat?
Amint fentebb említettük, az adatbányászat csak egy lépés a teljes KDD folyamaton belül. Az alkalmazás célja szerint két fő adatbányászati cél létezik, ezek az ellenőrzés vagy a felfedezés. Az ellenőrzés a felhasználó adatokkal kapcsolatos hipotézisének ellenőrzését jelenti, míg a felfedezés automatikusan érdekes mintákat talál. Négy fő adatbányászati feladat van: klaszterezés, osztályozás, regresszió és asszociáció (összegzés). A klaszterezés hasonló csoportok azonosítását jelenti strukturálatlan adatokból. Az osztályozás olyan szabályok tanulása, amelyeket új adatokra lehet alkalmazni. A regresszió olyan függvények keresése, amelyek minimális hibával modellezhetik az adatokat. Az asszociáció pedig a változók közötti kapcsolatokat keresi. Ezután ki kell választani az adott adatbányászati algoritmust. A céltól függően különböző algoritmusok választhatók, például lineáris regresszió, logisztikus regresszió, döntési fák és Naív Bayes. Ezután egy vagy több reprezentációs forma érdeklődési mintáit keresik. Végül a modellek értékelése prediktív pontosság vagy érthetőség alapján történik.
Mi a különbség a KDD és az adatbányászat között?
Bár a két KDD és az adatbányászat kifejezést gyakran felcserélhetően használják, két kapcsolódó, de kissé eltérő fogalomra utalnak. A KDD az adatokból az ismeretek kinyerésének átfogó folyamata, míg az adatbányászat egy lépés a KDD folyamaton belül, amely az adatok mintáinak azonosításával foglalkozik. Más szavakkal, az adatbányászat csak egy adott algoritmus alkalmazása, amely a KDD-folyamat általános célján alapul.