Obsah:
- Definice - Co znamená vyhledávání znalostí v databázích (KDD)?
- Techopedia vysvětluje získávání znalostí v databázích (KDD)
Definice - Co znamená vyhledávání znalostí v databázích (KDD)?
Zjišťování znalostí v databázích (KDD) je proces objevování užitečných znalostí ze sběru dat. Tato široce používaná technika dolování dat je proces, který zahrnuje přípravu a výběr dat, čištění dat, začleňování předchozích znalostí o souborech dat a interpretaci přesných řešení z pozorovaných výsledků.
Mezi hlavní oblasti použití KDD patří marketing, detekce podvodů, telekomunikace a výroba.
Techopedia vysvětluje získávání znalostí v databázích (KDD)
Tradičně bylo dolování dat a získávání znalostí prováděno ručně. Jak čas ubíhal, množství dat v mnoha systémech rostlo na větší než terabajtová velikost a již nebylo možné je udržovat ručně. Navíc pro úspěšnou existenci jakéhokoli podnikání je považováno za zásadní objevování základních vzorců v datech. V důsledku toho bylo vyvinuto několik softwarových nástrojů pro objevování skrytých dat a vytváření předpokladů, které tvořily součást umělé inteligence.
Proces KDD dosáhl svého vrcholu za posledních 10 let. Nyní obsahuje mnoho různých přístupů k objevům, které zahrnují induktivní učení, bayesovskou statistiku, optimalizaci sémantického dotazu, získávání znalostí pro expertní systémy a teorii informací. Konečným cílem je získat znalosti na vysoké úrovni z dat na nízké úrovni.
KDD zahrnuje multidisciplinární činnosti. To zahrnuje ukládání a přístup k datům, algoritmy škálování rozsáhlých datových sad a interpretaci výsledků. Proces čištění dat a přístup k datům zahrnutý do datového skladu usnadňují proces KDD. Umělá inteligence také podporuje KDD objevováním empirických zákonů z experimentů a pozorování. Vzory rozpoznávané v datech musí platit pro nová data a musí mít určitou míru jistoty. Tyto vzorce jsou považovány za nové znalosti. Kroky zapojené do celého procesu KDD jsou:
- Identifikujte cíl procesu KDD z pohledu zákazníka.
- Pochopte příslušné aplikační domény a potřebné znalosti
- Vyberte cílovou datovou sadu nebo podmnožinu vzorků dat, na kterých se má provádět vyhledávání.
- Vyčištění a předzpracování dat rozhodováním o strategiích, jak zpracovat chybějící pole a změnit data podle požadavků.
- Zjednodušte sady dat odstraněním nežádoucích proměnných. Poté analyzujte užitečné funkce, které lze použít k reprezentaci dat, v závislosti na cíli nebo úkolu.
- Porovnejte cíle KDD s metodami dolování dat, abyste navrhli skryté vzory.
- Chcete-li objevit skryté vzory, vyberte algoritmy dolování dat. Tento proces zahrnuje rozhodnutí, které modely a parametry by mohly být vhodné pro celkový proces KDD.
- Hledejte vzorce zájmu v konkrétní reprezentativní formě, které zahrnují klasifikační pravidla nebo stromy, regrese a shlukování.
- Interpretovat základní znalosti z těžených vzorců.
- Využijte znalosti a začleňte je do jiného systému pro další akci.
- Dokumentujte to a podejte zprávy zúčastněným stranám.
