Obsah:
Definice - Co znamenají špinavé údaje?
Špinavá data se týkají dat, která obsahují chybné informace. Může být také použit při odkazování na data, která jsou v paměti a dosud nebyla načtena do databáze. Úplné odstranění špinavých dat ze zdroje je nepraktické nebo prakticky nemožné.
Následující data lze považovat za špinavá data:
- Zavádějící údaje
- Duplicitní data
- Nesprávná data
- Nepřesná data
- Neintegrovaná data
- Data, která porušují obchodní pravidla
- Data bez generalizovaného formátování
- Nesprávně interpunkční nebo hláskovaná data
Techopedia vysvětluje Dirty Data
Kromě nesprávného zadávání dat mohou být znečištěná data generována kvůli nesprávným metodám správy a ukládání dat. Níže jsou vysvětleny některé špinavé typy dat:
- Nesprávná data - Aby se zajistilo, že data jsou platná nebo správná, měla by zadaná hodnota odpovídat platným hodnotám pole. Například hodnota zadaná v poli měsíc by se měla pohybovat od 1 do 12, nebo věk jednotlivce musí být menší než 130. Správnost hodnoty dat může být programově vynucena pomocí vyhledávacích tabulek nebo pomocí kontrol úprav.
- Nepřesná data - Je možné, že hodnota dat může být správná, ale ne přesná. Někdy je praktické zkoumat proti jiným souborům nebo polím a zjistit, zda je hodnota dat přesná podle kontextu, ve kterém je použita. Přesnost však může být často ověřena pouze ručním ověřením.
- Porušení obchodních pravidel - Data, která porušují obchodní pravidla, jsou dalším typem špinavých dat. Například datum účinnosti musí vždy předcházet datu uplynutí platnosti. Dalším příkladem porušení obchodních pravidel může být pojistné plnění Medicare u pacienta, kde může být pacient ještě ve věku odchodu do důchodu a nemá nárok na Medicare.
- Nekonzistentní data - Nekontrolovaná redundance dat vede k nekonzistenci dat. Každá organizace je ovlivněna nekonzistentními a opakujícími se údaji. To je typické zejména u zákaznických dat.
- Neúplná data - Data s chybějícími hodnotami jsou hlavním typem neúplných dat.
- Duplicitní data - Duplicitní data mohou nastat v důsledku opakovaného odesílání, nesprávného spojení dat nebo chyby uživatele.
Aby se zvýšila kvalita dat a zabránilo se špinavým datům, měly by organizace začlenit metodiky, které zajistí úplnost, platnost, konzistenci a správnost údajů.
