Obsah:
- Velká data jsou nestrukturovaná nebo polostrukturovaná
- Pokud nemůžeme zpracovat velká data, nemá smysl ukládat velká data
- Jak Hadoop řeší problém velkých dat
- Obchodní případ společnosti Hadoop
Velká data jsou … dobře … velká velikost! Přesně, kolik dat lze klasifikovat jako velká data, není příliš jasné, takže se v této debatě nezapadáme. Pro malou společnost, která je zvyklá na zpracování dat v gigabajtech, by 10 TB dat bylo BIG. Avšak pro společnosti jako Facebook a Yahoo jsou petabajty velké.
Pouhá velikost velkých dat znemožňuje (nebo alespoň omezuje náklady) jejich uložení v tradičním úložišti, jako jsou databáze nebo běžné filtry. Hovoříme o nákladech na ukládání gigabajtů dat. Používání tradičních úložných souborů může stát mnoho peněz za ukládání velkých dat.
Zde se podíváme na velká data, jejich výzvy a jak jim může společnost Hadoop pomoci vyřešit je. Za prvé, největší data jsou největší výzvy.
Velká data jsou nestrukturovaná nebo polostrukturovaná
Mnoho velkých dat není strukturováno. Například data v protokolu streamu kliknutí mohou vypadat takto:
časové razítko, user_id, stránka, referrer_page
Nedostatek struktury způsobuje, že relační databáze nejsou vhodné pro ukládání velkých dat. Navíc není mnoho databází schopno zvládnout ukládání miliard řádků dat.
Pokud nemůžeme zpracovat velká data, nemá smysl ukládat velká data
Ukládání velkých dat je součástí hry. Musíme to zpracovat, abychom z toho vytěžili inteligenci. Tradiční úložné systémy jsou docela „hloupé“ v tom smyslu, že pouze ukládají kousky. Nenabízejí žádnou zpracovatelskou sílu.
Tradiční model zpracování dat obsahuje data uložená v úložném clusteru, který je zkopírován do výpočetního clusteru ke zpracování. Výsledky jsou zapsány zpět do úložného clusteru.
Tento model však nefunguje pro velká data, protože kopírování tolika dat do výpočetního klastru může být příliš časově náročné nebo nemožné. Jaká je tedy odpověď?
Jedním z řešení je zpracování velkých dat na místě, jako je zdvojnásobení úložného clusteru jako výpočetní cluster.
Jak jsme viděli výše, velká data vzdorují tradičnímu úložišti. Jak tedy zvládneme velká data?
Jak Hadoop řeší problém velkých dat
Hadoop je postaven tak, aby fungoval na klastru strojůZačněme příkladem. Řekněme, že musíme uložit spoustu fotografií. Začneme jedním diskem. Pokud překročíme jeden disk, můžeme použít několik disků naskládaných na stroji. Když maximalizujeme všechny disky na jednom počítači, musíme získat spoustu strojů, každý s partou disků.
To je přesně to, jak je postaven Hadoop. Hadoop je navržen tak, aby fungoval na klastru strojů od samého začátku.
Hadoop clustery měřítko vodorovně
Více úložného a výpočetního výkonu lze dosáhnout přidáním více uzlů do klastru Hadoop. To vylučuje nutnost nákupu stále silnějšího a dražšího hardwaru.
Hadoop umí zpracovat nestrukturovaná / polostrukturovaná data
Hadoop nevynucuje schéma uložených dat. Zvládá libovolné textové a binární údaje. Hadoop tak může snadno strávit jakákoli nestrukturovaná data.
Klastry Hadoop poskytují úložiště a výpočetní techniku
Viděli jsme, jak mít oddělené klastry pro ukládání a zpracování není nejlepší pro velká data. Klastry Hadoop však poskytují úložiště a distribuované výpočty vše v jednom.
Obchodní případ společnosti Hadoop
Hadoop poskytuje úložiště velkých dat za rozumnou cenuUkládání velkých dat pomocí tradičního úložiště může být drahé. Hadoop je postaven na komoditním hardwaru, takže poskytuje poměrně velké úložiště za rozumnou cenu. Hadoop byl použit v poli v petabyte měřítku.
Jedna studie společnosti Cloudera naznačila, že podniky obvykle utratí zhruba 25 000 až 50 000 USD za terabajt ročně. U společnosti Hadoop tato cena klesne na několik tisíc dolarů za terabajt za rok. Protože hardware je levnější a levnější, tyto náklady stále klesají.
Hadoop umožňuje zachycení nových nebo více dat
Organizace někdy nezachycují typ dat, protože jejich uložení bylo příliš nákladné. Protože Hadoop poskytuje úložiště za rozumnou cenu, lze tento typ dat zachytit a uložit.
Jedním příkladem by mohly být protokoly kliknutí na webové stránky. Protože objem těchto protokolů může být velmi vysoký, nezachytilo je mnoho organizací. Nyní lze pomocí Hadoop zaznamenávat a ukládat protokoly.
S Hadoopem můžete ukládat data déle
Pro správu objemu uložených dat společnosti pravidelně odstraňují starší data. Například bylo možné uložit pouze protokoly za poslední tři měsíce, zatímco starší protokoly byly odstraněny. S Hadoopem je možné ukládat historická data déle. To umožňuje provádět nové analýzy na starších historických datech.
Například můžete zaznamenat kliknutí z webu. Před několika lety byly tyto protokoly uloženy na krátkou dobu pro výpočet statistik jako oblíbené stránky. Nyní s Hadoopem je možné tyto protokoly kliknutí ukládat delší dobu.
Hadoop poskytuje škálovatelnou analytiku
Pokud nemůžeme je analyzovat, nemá smysl ukládat všechna tato data. Hadoop poskytuje nejen distribuované úložiště, ale také distribuované zpracování, což znamená, že můžeme paralelně rozdrtit velký objem dat. Výpočtový rámec Hadoop se nazývá MapReduce. MapReduce se osvědčil na úrovni petabytů.
Hadoop poskytuje bohatou analytiku
Native MapReduce podporuje Javu jako primární programovací jazyk. Lze použít i jiné jazyky, jako jsou Ruby, Python a R.
Psaní vlastního kódu MapReduce samozřejmě není jediným způsobem, jak analyzovat data v Hadoopu. K dispozici je mapa na vyšší úrovni. Například nástroj s názvem Pig bere angličtinu jako jazyk toku dat a převádí je do MapReduce. Jiný nástroj, Hive, přijímá dotazy SQL a spouští je pomocí MapReduce.
Nástroje Business Intelligence (BI) mohou poskytnout ještě vyšší úroveň analýzy. Pro tento typ analýzy existují také nástroje.
Tento obsah je výňatek z „Hadoop Illuminated“ od Mark Kerzner a Sujee Maniyam. Byl zpřístupněn prostřednictvím Creative Commons Attribution-NonCommerce-ShareAlike 3.0 Unported License.