Obsah:
Apache Hadoop je dlouhodobě základem velkých datových aplikací a je považován za základní datovou platformu pro všechny nabídky související s velkými daty. Databáze a výpočet v paměti však získává na popularitě kvůli rychlejšímu výkonu a rychlým výsledkům. Apache Spark je nový rámec, který využívá funkce v paměti pro rychlé zpracování (téměř 100krát rychlejší než Hadoop). Produkt Spark se tedy stále častěji používá ve světě velkých dat a hlavně pro rychlejší zpracování.
Webinář: Síla návrhu: Jak katalog dat zmocňuje analytiky Registrujte se zde |
Co je to Apache Spark?
Apache Spark je open-source framework pro zpracování obrovských objemů dat (velkých dat) s rychlostí a jednoduchostí. Je vhodný pro analytické aplikace založené na velkých datech. Spark lze použít v prostředí Hadoop, samostatně nebo v cloudu. Byl vyvinut na University of California a později nabídnut Apache Software Foundation. Patří tedy k komunitě s otevřeným zdrojovým kódem a může být velmi efektivní z hlediska nákladů, což dále umožňuje amatérským vývojářům pracovat s lehkostí. (Chcete-li se dozvědět více o otevřeném zdroji Hadoop, přečtěte si téma Jaký je vliv otevřeného zdroje na ekosystém Apache Hadoop?)
Hlavním účelem Spark je to, že nabízí vývojářům aplikační rámec, který pracuje kolem středové datové struktury. Spark je také extrémně výkonný a má vrozenou schopnost rychle zpracovat obrovské množství dat v krátkém časovém úseku, a tak nabízí extrémně dobrý výkon. Díky tomu je mnohem rychlejší, než se říká, že je jeho nejbližším konkurentem, Hadoop.