Domov Databáze Co jsou to špinavá data? - definice z techopedie

Co jsou to špinavá data? - definice z techopedie

Obsah:

Anonim

Definice - Co znamenají špinavé údaje?

Špinavá data se týkají dat, která obsahují chybné informace. Může být také použit při odkazování na data, která jsou v paměti a dosud nebyla načtena do databáze. Úplné odstranění špinavých dat ze zdroje je nepraktické nebo prakticky nemožné.

Následující data lze považovat za špinavá data:

  • Zavádějící údaje
  • Duplicitní data
  • Nesprávná data
  • Nepřesná data
  • Neintegrovaná data
  • Data, která porušují obchodní pravidla
  • Data bez generalizovaného formátování
  • Nesprávně interpunkční nebo hláskovaná data

Techopedia vysvětluje Dirty Data

Kromě nesprávného zadávání dat mohou být znečištěná data generována kvůli nesprávným metodám správy a ukládání dat. Níže jsou vysvětleny některé špinavé typy dat:

  • Nesprávná data - Aby se zajistilo, že data jsou platná nebo správná, měla by zadaná hodnota odpovídat platným hodnotám pole. Například hodnota zadaná v poli měsíc by se měla pohybovat od 1 do 12, nebo věk jednotlivce musí být menší než 130. Správnost hodnoty dat může být programově vynucena pomocí vyhledávacích tabulek nebo pomocí kontrol úprav.
  • Nepřesná data - Je možné, že hodnota dat může být správná, ale ne přesná. Někdy je praktické zkoumat proti jiným souborům nebo polím a zjistit, zda je hodnota dat přesná podle kontextu, ve kterém je použita. Přesnost však může být často ověřena pouze ručním ověřením.
  • Porušení obchodních pravidel - Data, která porušují obchodní pravidla, jsou dalším typem špinavých dat. Například datum účinnosti musí vždy předcházet datu uplynutí platnosti. Dalším příkladem porušení obchodních pravidel může být pojistné plnění Medicare u pacienta, kde může být pacient ještě ve věku odchodu do důchodu a nemá nárok na Medicare.
  • Nekonzistentní data - Nekontrolovaná redundance dat vede k nekonzistenci dat. Každá organizace je ovlivněna nekonzistentními a opakujícími se údaji. To je typické zejména u zákaznických dat.
  • Neúplná data - Data s chybějícími hodnotami jsou hlavním typem neúplných dat.
  • Duplicitní data - Duplicitní data mohou nastat v důsledku opakovaného odesílání, nesprávného spojení dat nebo chyby uživatele.

Aby se zvýšila kvalita dat a zabránilo se špinavým datům, měly by organizace začlenit metodiky, které zajistí úplnost, platnost, konzistenci a správnost údajů.

Co jsou to špinavá data? - definice z techopedie