Obsah:
SQL on Hadoop je skupina analytických aplikačních nástrojů, které kombinují dotazování a zpracování dat ve stylu SQL s nejnovějšími prvky rámce dat Hadoop. Vznik SQL na Hadoopu je důležitým vývojem pro zpracování velkých dat, protože umožňuje širším skupinám lidí úspěšně spolupracovat s rámcem pro zpracování dat Hadoop spuštěním SQL dotazů na obrovské objemy velkých dat, které Hadoop zpracovává. Je zřejmé, že rámec Hadoop dříve nebyl lidem tak přístupný, zejména pokud jde o jeho schopnost dotazování. Na základě vývoje bylo v dílech několik nástrojů, které slibují zlepšení produktivity podniků, pokud jde o zpracování a analýzu velkých dat s kvalitou a rychlostí. Není také nutné hodně investovat do učení tohoto nástroje, jak by to mělo dělat tradiční znalosti jazyka SQL.
Definice SQL na Hadoopu
SQL on Hadoop je skupina aplikací, která vám umožní spouštět dotazy ve stylu SQL na velkých datech hostovaných rámcem pro zpracování dat Hadoop. Je zřejmé, že dotazování, získávání a analýza dat byly jednodušší přidáním SQL na Hadoop. Protože SQL byl původně určen pro relační databáze, musel být upraven podle modelu Hadoop 1, který zahrnuje MapReduce a Hadoop Distributed File System (HDFS), a modelu Hadoop 2, který nemá MapReduce a HDFS.
Jedním z prvních pokusů o kombinaci SQL s Hadoopem bylo vytvoření datového skladu Hive se softwarem HiveQL, který mohl převádět dotazy ve stylu SQL do úloh MapReduce. Poté bylo vyvinuto několik aplikací, které by mohly dělat podobné úkoly. Mezi nejvýznamnější nástroje patří Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) a Tez (Hive on Tez).