Domov Zvuk Hadoop analytics: není tak snadné napříč více zdroji dat

Hadoop analytics: není tak snadné napříč více zdroji dat

Obsah:

Anonim

Hadoop je skvělé místo, kde se mohou odkládat data pro analytické zpracování nebo modelovat větší objemy jediného zdroje dat, které u stávajících systémů není možné. Protože však společnosti přinesou do Hadoopu data z mnoha zdrojů, roste poptávka po analýze dat napříč různými zdroji, kterých může být velmi obtížné dosáhnout. Tento příspěvek je první ve třídílné řadě, která vysvětluje problémy, kterým organizace čelí, když se pokouší analyzovat různé zdroje a typy dat v Hadoopu a jak tyto problémy vyřešit. Dnešní příspěvek se zaměřuje na problémy, ke kterým dochází při kombinaci více interních zdrojů. Další dva příspěvky vysvětlují, proč se tyto problémy zvyšují složitostí, protože jsou přidávány externí zdroje dat, a jak jim nové přístupy pomáhají řešit je.

Data z různých zdrojů je obtížné připojit a mapovat

Data z různých zdrojů mají různé struktury, které ztěžují propojení a mapování typů dat dohromady, dokonce i dat z interních zdrojů. Kombinace dat může být obzvláště obtížná, pokud zákazníci mají více čísel účtů nebo pokud organizace získala nebo sloučila s jinými společnostmi. Během několika posledních let se některé organizace pokusily použít k vyhledávání dat z více zdrojů uložených v Hadoopu aplikace pro vyhledávání dat nebo datové vědy. Tento přístup je problematický, protože zahrnuje spoustu dohadů: uživatelé se musí rozhodnout, které cizí klíče použijí pro připojení různých zdrojů dat a při vytváření překryvů datového modelu učinit předpoklady. Tyto odhady jsou obtížně testovatelné a často nesprávné, pokud jsou použity v měřítku, což vede k chybné analýze dat a nedůvěře ke zdrojům.

Experti společnosti Hadoop se pokoušejí sloučit data společně

Organizace, které chtějí analyzovat data napříč datovými zdroji, se proto uchýlily k najímání odborníků Hadoopu k vytváření vlastních skriptů specifických pro zdroj, aby se sloučily datové sady. Tito odborníci společnosti Hadoop obvykle nejsou odborníky na integraci dat ani řešení problémů s entitami, ale dělají, co mohou, aby dokázali řešit okamžité potřeby organizace. Tito odborníci obvykle používají Pig nebo Java k psaní tvrdých a rychlých pravidel, která určují, jak kombinovat strukturovaná data z konkrétních zdrojů, např. Odpovídající záznamy na základě čísla účtu. Jakmile je napsán skript pro dva zdroje, je-li třeba přidat třetí zdroj, musí být první skript vyhozen a nový skript navržen tak, aby kombinoval tři specifické zdroje. Totéž se stane, pokud je přidán jiný zdroj a tak dále. Nejenže je tento přístup neefektivní, ale také selhává, když je aplikován v měřítku, špatně zpracovává okrajové případy, může vést k velkému počtu duplicitních záznamů a často slučuje mnoho záznamů, které by neměly být kombinovány.

Hadoop analytics: není tak snadné napříč více zdroji dat