Domov It-Business Data, velká i malá: kde je skutečná hodnota?

Data, velká i malá: kde je skutečná hodnota?

Obsah:

Anonim

Velká data jsou plošná slova, která se týkají zpracování velkých objemů dat. Všichni chápeme, že čím větší objem dat, tím složitější. Tradiční databázová řešení často nedokážou správně spravovat velké objemy dat kvůli jejich složitosti a velikosti. Správa velkých objemů dat a získávání skutečného vhledu je proto náročným úkolem. Stejný koncept „hodnoty“ lze použít i pro malá data.

Jak se používají velká data

Konvenční databázová řešení založená na konceptu RDBMS mohou velmi dobře spravovat transakční data a jsou široce používána v různých aplikacích. Ale pokud jde o zpracování velké sady dat (data, která jsou archivována a je v terabajtech nebo petabajtech), tato databázová řešení často selhávají. Tyto datové sady jsou příliš velké a většinu času nezapadají do architektury tradičních databází. V dnešní době se velká data stala nákladově efektivním přístupem k manipulaci s většími soubory dat. Z organizačního hlediska lze využití velkých dat rozdělit do následujících kategorií, kde skutečná hodnota velkých dat spočívá:

  • Analytické použití

    Analytici velkých dat odhalili mnoho důležitých skrytých aspektů dat, která jsou příliš nákladná na zpracování. Například, pokud musíme zkontrolovat trend zájmu studentů o určité nové téma, můžeme to provést analýzou denních záznamů o docházce a dalších sociálních a geografických skutečností. Tato fakta jsou zachycena v databázi. Pokud k těmto datům nemůžeme přistupovat efektivně, nemůžeme vidět výsledky.

  • Povolit nové produkty

    V nedávné minulosti začalo mnoho nových webových společností, jako je Facebook, používat velká data jako řešení pro zavádění nových produktů. Všichni víme, jak populární je Facebook - úspěšně připravil vysoce výkonný uživatelský zážitek s využitím velkých dat.

Kde je skutečná hodnota?

Různá velká datová řešení se liší v přístupu, ve kterém ukládají data, ale nakonec všechna ukládají data ve struktuře plochých souborů. Obecně se Hadoop skládá ze systému souborů a některých datových abstrakcí na úrovni operačního systému. To zahrnuje motor MapReduce a distribuovaný systém souborů Hadoop (HDFS). Jednoduchý klastr Hadoop zahrnuje jeden hlavní uzel a několik pracovních uzlů. Hlavní uzel se skládá z následujících:

  • Sledování úloh
  • Sledování úloh
  • Název uzlu
  • Datový uzel
Pracovní uzel se skládá z následujících:
  • Sledování úloh
  • Datový uzel

Některé implementace mají pouze datový uzel. Datový uzel je skutečná oblast, kde leží data. HDFS ukládá velké soubory (v rozsahu od terabajtů do petabytů) distribuované na více počítačích. Spolehlivost dat v každém uzlu je dosaženo replikací dat napříč všemi hostiteli. Data jsou tedy dostupná, i když je jeden z uzlů vypnutý. To pomáhá dosáhnout rychlejší reakce na dotazy. Tento koncept je velmi užitečný v případě velkých aplikací, jako je Facebook. Jako uživatel dostáváme odpověď na náš požadavek na chat, například téměř okamžitě. Zvažte scénář, kdy uživatel musí při chatování čekat dlouhou dobu. Pokud zpráva a následná odpověď nebudou doručeny okamžitě, kolik lidí bude tyto chatovací nástroje skutečně používat?

Pokud se vracíme zpět k implementaci Facebooku, pokud data nebudou replikována napříč klastry, nebude možné mít atraktivní implementaci. Hadoop distribuuje data mezi počítači ve větším klastru a ukládá soubory jako posloupnost bloků. Tyto bloky mají stejnou velikost kromě posledního bloku. Velikost bloku a faktor replikace lze přizpůsobit podle potřeby. Soubory v systému HDFS striktně dodržují přístup jednorázového zápisu, a proto je lze psát nebo upravovat najednou pouze jedním uživatelem. Rozhodnutí týkající se replikace bloků jsou přijímána uzlem názvu. Jmenný uzel přijímá zprávy a pulzní odpovědi z každého z datových uzlů. Pulzní odezvy zajišťují dostupnost odpovídajícího datového uzlu. Zpráva obsahuje podrobnosti o blocích v datovém uzlu.


Další implementace velkých dat, Cassandra, také používá podobný distribuční koncept. Cassandra distribuuje data na základě geografického umístění. V Cassandře jsou tedy data segregována na základě geografického umístění využití dat.

Někdy má malá data větší (a méně drahý) dopad

Podle Rufuse Pollocka z Open Knowledge Foundation nemá smysl vytvářet humbuk kolem velkých dat, zatímco malá data jsou stále místem, kde leží skutečná hodnota.


Jak už název napovídá, malá data jsou množina dat cílená z větší sady dat. Malá data mají v úmyslu přesunout pozornost od využití dat a také se snaží čelit trendu přechodu k velkým datům. Přístup malých dat pomáhá při shromažďování údajů založených na specifických požadavcích s menší námahou. Výsledkem je efektivnější obchodní praxe při implementaci obchodní inteligence.


Ve svém jádru se koncept malých dat točí kolem podniků, které vyžadují výsledky, které vyžadují další kroky. Tyto výsledky je třeba načíst rychle a následná akce by měla být také provedena neprodleně. Můžeme tedy eliminovat druhy systémů běžně používaných v analytice velkých dat.


Obecně platí, že pokud vezmeme v úvahu některé specifické systémy, které jsou vyžadovány pro sběr velkých dat, může společnost investovat do nastavení velkého množství serverového úložiště, používat sofistikované high-end servery a nejnovější aplikace pro dolování dat pro zpracování různých bitů dat, včetně dat a časů akcí uživatelů, demografických informací a dalších informací. Celá tato sada dat se přesouvá do centrálního datového skladu, kde se k třídění a zpracování dat k zobrazení ve formě podrobných zpráv používají složité algoritmy.


Všichni víme, že tato řešení přinesla výhody mnoha podnikům, pokud jde o rozšiřitelnost a dostupnost; existují organizace, které zjistí, že přijetí těchto přístupů vyžaduje značné úsilí. Je také pravda, že v některých případech se podobných výsledků dosáhne pomocí méně robustní strategie dolování dat.


Malá data poskytují organizacím možnost ustoupit od posedlosti nejnovějšími a nejnovějšími technologiemi, které podporují sofistikovanější obchodní procesy. Společnosti, které propagují malé údaje, tvrdí, že je důležité z obchodního hlediska využívat své zdroje efektivním způsobem, aby bylo možné do určité míry zabránit nadměrným výdajům na technologii.


Hodně jsme diskutovali o velkých datech a malých datech, ale musíme pochopit, že výběr správné platformy (velká data nebo malá data) pro správné použití je nejdůležitější součástí celého cvičení. Pravda je, že ačkoli velká data mohou přinést spoustu výhod, není to vždy nejlepší.

Data, velká i malá: kde je skutečná hodnota?