Obsah:
Všichni mluví o Hadoop, nové horké technologii, která je mezi vývojáři vysoce ceněna a může změnit svět (opět). Ale co to vlastně je? Je to programovací jazyk? Databáze? Systém zpracování? Příjemný indický čaj?
Obecná odpověď: Hadoop jsou všechny tyto věci (s výjimkou útulného čaje) a další. Je to softwarová knihovna, která poskytuje programovací rámec pro levné a užitečné zpracování dalšího moderního buzzwordu: velkých dat.
Odkud pocházel Hadoop?
Apache Hadoop je součástí nadačního projektu od Apache Software Foundation, neziskové organizace, jejímž posláním je „poskytovat software pro veřejné blaho“. Knihovna Hadoop jako taková je bezplatný software s otevřeným zdrojovým kódem, který je k dispozici všem vývojářům.
Základní technologie, která pohání Hadoop, byla ve skutečnosti vynalezena společností Google. V dávných dobách potřeboval vyhledávač, který není úplně obří, způsob, jak indexovat obrovské množství dat, která shromažďovali z internetu, a proměnit jej v smysluplné a relevantní výsledky pro jeho uživatele. Vzhledem k tomu, že na trhu není nic, co by splnilo jejich požadavky, Google vytvořil vlastní platformu.
Tyto inovace byly vydány v open-source projektu s názvem Nutch, který Hadoop později použil jako nadace. Hadoop v podstatě využívá sílu společnosti Google na velká data způsobem, který je cenově dostupný pro společnosti všech velikostí.
Jak Hadoop působí?
Jak již bylo zmíněno, Hadoop není jedna věc - je to mnoho věcí. Softwarová knihovna, která je Hadoop, se skládá ze čtyř primárních částí (modulů) a řady doplňkových řešení (jako jsou databáze a programovací jazyky), které zvyšují její využití v reálném světě. Čtyři moduly jsou:- Hadoop Common: Toto je kolekce běžných utilit (společná knihovna), která podporuje moduly Hadoop.
- Distribuovaný systém souborů Hadoop (HDFS): Robustní systém distribuovaných souborů bez omezení uložených dat (což znamená, že data mohou být strukturovaná nebo nestrukturovaná a schemaless, kde mnoho DFS bude ukládat pouze strukturovaná data), která poskytuje vysoce výkonný přístup s redundancí ( HDFS umožňuje ukládat data na více počítačích - takže pokud jeden stroj selže, dostupnost je zachována prostřednictvím ostatních počítačů).
- Hadoop YARN: Tento rámec je zodpovědný za plánování úloh a správu klastrových prostředků; zajišťuje, že data jsou rozložena dostatečně na více strojích, aby byla zachována redundance. YARN je modul, díky kterému je Hadoop cenově dostupným a nákladově efektivním způsobem zpracování velkých dat.
- Hadoop MapReduce: Tento systém založený na technologii YARN, postavený na technologii Google, provádí paralelní zpracování velkých datových souborů (strukturovaných i nestrukturovaných). MapReduce lze nalézt také ve většině dnešních velkých rámců zpracování dat, včetně databází MPP a NoSQL.
Hardware, který zvládne množství výpočetního výkonu potřebného pro práci s velkými daty, je drahý, mírně řečeno. Toto je skutečná inovace Hadoop: schopnost rozdělit obrovské množství výpočetního výkonu na více menších počítačů, každý s vlastním lokalizovaným výpočtem a ukládáním, spolu s vestavěnou redundancí na úrovni aplikace, aby se předešlo chybám.
Co dělá Hadoop?
Jednoduše řečeno, Hadoop dělá velká data přístupná a použitelná pro všechny.
Před společností Hadoop to společnosti, které používaly velká data, dělaly většinou s relačními databázemi a datovými sklady podniků (které používají obrovské množství drahého hardwaru). I když jsou tyto nástroje skvělé pro zpracování strukturovaných dat - což jsou data, která jsou již tříděna a uspořádána zvládnutelným způsobem - kapacita pro zpracování nestrukturovaných dat byla extrémně omezená, natolik, že prakticky neexistovala. Aby byla data použitelná, musela být nejprve strukturována, aby se úhledně hodila do tabulek.
Rámec Hadoop tento požadavek mění a činí tak levně. S Hadoop lze zpracovat obrovské množství dat od 10 do 100 gigabajtů a výše, strukturovaných i nestrukturovaných, pomocí běžných (komoditních) serverů.
Hadoop přináší potenciální velké datové aplikace pro podniky všech velikostí, v každém odvětví. Rámec open-source umožňuje finančním společnostem vytvářet sofistikované modely pro hodnocení portfolia a analýzu rizik, nebo online maloobchodníci doladit své vyhledávací odpovědi a nasměrovat zákazníky k produktům, které si pravděpodobně koupí.
S Hadoopem jsou možnosti opravdu neomezené.