ETL (extrakt, transformace a načtení) je jedním z nejdůležitějších procesů ve velké analýze dat - a zároveň může být jedním z jeho největších úzkých míst. (Více informací o velkých datech najdete v 5 užitečných kurzech velkých dat, které můžete absolvovat online.)
Důvod, proč je ETL tak důležitý, je ten, že většina údajů, které podnik shromažďuje, není ve své prvotní formě připravena na analytické řešení, které by mělo být zpracováno. Aby analytické řešení vytvořilo přehledy, musí být nezpracovaná data extrahována z aplikace, kde se aktuálně nachází, převedena do formátu, který může analytický program číst, a poté načtena do samotného analytického programu.
Tento proces je analogický vaření. Vaše suroviny jsou vaše surová data. Než je lze analyzovat (ochutnat), musí být extrahovány (zakoupeny v obchodě), transformovány (vařeny) a poté naloženy (pokoveny). Obtížnost a náklady se mohou nepředvídatelně přizpůsobit - je snadné vyrobit si sýr Mac n 'pro sebe, ale mnohem těžší je vytvořit gurmánské menu pro 40 osob na večeři. Netřeba dodávat, že chyba v kterémkoli okamžiku může vaše jídlo nestrávit.