Q:
Jak se mohu naučit používat Hadoop k analýze velkých dat?
A:Softwarová sada Apache známá jako Hadoop se stává velmi populárním zdrojem pro práci s velkými datovými sadami. Tento typ softwarového rámce pro zpracování dat byl vytvořen s cílem pomoci agregovat data konkrétním způsobem na základě návrhů, které mohou zefektivnit některé druhy datových projektů. To znamená, že Hadoop je pouze jedním z mnoha nástrojů pro zpracování velkých datových souborů.
Jedním z prvních a nejzákladnějších způsobů, jak se dozvědět o analýze velkých dat pomocí Hadoopu, je porozumět některým z nejvyšších komponent Hadoop a co to dělá. Patří mezi ně „platforma pro správu zdrojů“ Hadoop YARN, kterou lze použít na určité druhy síťových nastavení, a sada funkcí Hadoop MapReduce, které se vztahují na velké datové sady. K dispozici je také distribuovaný souborový systém Hadoop (HDFS), který pomáhá ukládat data napříč distribuovanými systémy, takže je lze rychle a efektivně indexovat nebo načíst.
Kromě toho se ti, kteří se chtějí seznámit s Hadoopem, mohou podívat na jednotlivé publikované zdroje pro profesionály, kteří vysvětlují software na relativní úrovni. Tento příklad od Chris Stucchio na osobním blogu poskytuje vynikající soubor bodů o Hadoopu a měřítku dat. Jedním ze základních toků s sebou je, že Hadoop může být používán častěji, než je nutné, a nemusí být nejlepším řešením pro jednotlivý projekt. Přezkum těchto druhů zdrojů pomůže profesionálům lépe se seznámit s podrobnostmi o používání Hadoopu v jakémkoli daném scénáři. Stucchio také poskytuje metafory pro přiřazení funkcí Hadoop ke konkrétním fyzickým úkolům. Zde je příkladem spočítání počtu knih v knihovně, zatímco funkce Hadoop může tuto knihovnu rozdělit na sekce a poskytnout jednotlivé počty, které jsou smíchány do jednoho souhrnného datového výsledku.
Podrobnější způsob, jak se odborníci mohou dozvědět více o Hadoopu a jeho aplikaci na velká data, je prostřednictvím specifických školicích zdrojů a programů. Například online vzdělávací společnost Cloudera, přední poskytovatel vzdálených školení, má řadu zajímavých možností ohledně použití Hadoopu a podobných typů zpracování dat.