Domov Trendy 7 věcí, které byste měli vědět o hadoopu

7 věcí, které byste měli vědět o hadoopu

Obsah:

Anonim

Co je Hadoop? Je to žlutý slon. Ne, co jste očekávali? A co tohle: Doug Cutting - spolutvůrce tohoto open-source softwarového projektu - půjčil si jméno od svého syna, který náhodou zavolal svého slona Hadoopa. Stručně řečeno, Hadoop je softwarový rámec vyvinutý Apache Software Foundation, který se používá k vývoji datově náročných distribuovaných výpočtů. A je to klíčová komponenta v jiných čtečkách hesel, která nikdy nemohou dostat dost: velkých dat. Zde je sedm věcí, které byste měli vědět o tomto jedinečném, volně licencovaném softwaru.

Jak se Hadoop dostal na začátek?

Před dvanácti lety Google vybudoval platformu pro manipulaci s obrovským množstvím dat, která shromažďoval. Stejně jako společnost často, Google zpřístupnil svůj design veřejnosti ve formě dvou dokumentů: Google File System a MapReduce.


Ve stejné době Doug Cutting a Mike Cafarella pracovali na novém vyhledávači Nutch. Oba se také potýkali s tím, jak zpracovat velké množství dat. Poté oba vědci získali informace o dokumentech Google. Tato šťastná křižovatka změnila všechno tím, že zavedla Cutting a Cafarella do lepšího systému souborů a způsobu, jak sledovat data, což nakonec vedlo k vytvoření Hadoopu.

Co je tak důležité na Hadoopu?

Sběr dat je dnes snadnější než kdy jindy. Mít všechna tato data představuje mnoho příležitostí, ale existují také výzvy:

  • Velké množství dat vyžaduje nové metody zpracování.
  • Zachycená data jsou v nestrukturovaném formátu.
Pro překonání výzev manipulace s obrovským množstvím nestrukturovaných dat přišli Cutting and Cafarella s dvoudílným řešením. K vyřešení problému s kvantitou dat používá Hadoop distribuované prostředí - síť komoditních serverů - vytvářející paralelní procesorový klastr, který přináší větší výpočetní výkon, který má nést přiřazená úloha.


Dále museli řešit nestrukturovaná data nebo data ve formátech, které standardní relační databázové systémy nedokázaly zvládnout. Cutting and Cafarella navrhl Hadoop pro práci s jakýmkoli typem dat: strukturované, nestrukturované, obrázky, zvukové soubory, dokonce i text. Tento dokument Cloudera (integrátor Hadoop) vysvětluje, proč je to důležité:

    „Díky tomu, že jsou všechna vaše data použitelná, nejen to, co je ve vašich databázích, Hadoop vám umožní odhalit skryté vztahy a odhalí odpovědi, které byly vždy jen mimo dosah. Můžete začít dělat více rozhodnutí na základě tvrdých dat, namísto falešných údajů, a vypadat v úplných souborech dat, nejen v ukázkách a shrnutí. “

Co je schéma na čtení?

Jak již bylo zmíněno dříve, jednou z výhod Hadoop je jeho schopnost zpracovávat nestrukturovaná data. V jistém smyslu je to „kopání plechovky po silnici“. Nakonec data potřebují nějaký druh struktury, aby bylo možné je analyzovat.


To je místo, kde začíná hrát schéma při čtení. Schéma při čtení je roztavení, v jakém formátu jsou data, kde je lze najít (pamatujte, že data jsou rozptýlena mezi několik serverů), a co je třeba s daty udělat - ne jednoduchý úkol. Bylo řečeno, že manipulace s daty v systému Hadoop vyžaduje dovednosti obchodního analytika, statistika a programátora Java. Bohužel není mnoho lidí s takovou kvalifikací.

Co je Úl?

Pokud měl Hadoop uspět, práce s daty musela být zjednodušena. Takže open-source dav začal fungovat a vytvořil Hive:

    „Úl poskytuje mechanismus pro promítání struktury do těchto dat a dotazování dat pomocí jazyka podobného SQL s názvem HiveQL. Tento jazyk také umožňuje tradičním mapovým / redukčním programátorům připojit jejich vlastní mapovače a reduktory, pokud je to nevhodné nebo neefektivní vyjádřit tuto logiku v HiveQL. “

Úl umožňuje to nejlepší z obou světů: pracovníci databáze obeznámení s příkazy SQL mohou manipulovat s daty a vývojáři, kteří jsou seznámeni se schématem procesu čtení, jsou stále schopni vytvářet přizpůsobené dotazy.

Jaké údaje analyzuje Hadoop?

Web analytics je první věc, která přichází na mysl, analyzuje webové protokoly a webový provoz za účelem optimalizace webových stránek. Například Facebook je určitě součástí webové analýzy, pomocí Hadoopu třídí terabajty dat, které společnost shromažďuje.


Společnosti používají klastry Hadoop k provádění analýzy rizik, odhalování podvodů a segmentaci zákaznické základny. Utilityové společnosti používají Hadoop k analýze dat senzorů z jejich elektrické sítě, což jim umožňuje optimalizovat výrobu elektřiny. Hlavní společnosti jako Target, 3M a Medtronics používají Hadoop k optimalizaci distribuce produktů, hodnocení obchodních rizik a segmentaci zákaznické základny.


Univerzity jsou také investovány do Hadoopu. Brad Rubin, docent na University of St. Thomas Graduate Programs in Software, zmínil, že jeho odbornost v oblasti Hadoopu pomáhá třídit velké množství dat sestavených výzkumnými skupinami na univerzitě.

Můžete uvést příklad Hadoopu v reálném světě?

Jedním z nejznámějších příkladů je TimesMachine. The New York Times má sbírku celostránkových obrázků TIFF pro noviny, přidružených metadat a textů článků z let 1851 až 1922, což představuje terabajty dat. Derek Gottfrid z NYT pomocí systému EC2 / S3 / Hadoop a specializovaného kódu:

    „Přijalo 405 000 velmi velkých obrázků TIFF, 3, 3 milionu článků v SGML a 405 000 xml souborů mapujících články do pravoúhlých oblastí v TIFF. Tato data byla převedena na webově příjemnější 810 000 PNG obrázků (miniatury a plné obrázky) a 405 000 souborů JavaScript. "

Při použití serverů v cloudu webových služeb Amazon Gottfrid zmínil, že jsou schopni zpracovat všechna data potřebná pro TimesMachine za méně než 36 hodin.

Je Hadoop již zastaralý nebo jen morfuje?

Hadoop je už více než deset let. Mnoho lidí říká, že je zastaralé. Jeden odborník, Dr. David Rico, řekl, že „IT produkty jsou krátkodobé. V psích letech jsou produkty společnosti Google přibližně 70, zatímco Hadoop je 56.“


To, co Rico říká, může být pravda. Zdá se, že Hadoop prochází generální opravou. Chcete-li se o tom dozvědět více, pozval mě Rubin na schůzku uživatelské skupiny Twin Cities Hadoop. Tématem diskuse bylo Úvod do YARN:

    „Apache Hadoop 2 obsahuje nový modul MapReduce, který má oproti předchozí implementaci řadu výhod, včetně lepší škálovatelnosti a využití zdrojů. Nová implementace je postavena na obecném systému správy zdrojů pro provozování distribuovaných aplikací s názvem YARN.“
Hadoop má v kruzích správy databází a obsahu spoustu hlášek, ale stále existuje mnoho otázek a jak je lze nejlépe použít. To je jen pár. Pokud máte více, pošlete jim naši cestu. Odpovíme na ty nejlepší na Techopedia.com.

7 věcí, které byste měli vědět o hadoopu