Q:
Může být ve velkých datech příliš mnoho dat?
A:Odpověď na otázku zní jednoznačně ANO. Ve velkém datovém projektu může být absolutně příliš mnoho dat.
Existuje mnoho způsobů, jak k tomu může dojít, a různé důvody, proč odborníci potřebují omezit a opatřit data mnoha způsoby, aby dosáhli správných výsledků. (Přečtěte si 10 velkých mýtů o velkých datech.)
Obecně odborníci hovoří o odlišování „signálu“ od „šumu“ v modelu. Jinými slovy, v moři velkých dat je obtížné zacílit na relevantní údaje o statistikách. V některých případech hledáte jehlu v kupce sena.
Předpokládejme například, že se společnost snaží použít velká data k vytvoření konkrétních poznatků o segmentu zákaznické základny a jejich nákupech v konkrétním časovém rámci. (Přečtěte si, co dělá velká data?)
Převzetí obrovského množství datových aktiv může mít za následek příjem náhodných dat, která nejsou relevantní, nebo může dokonce způsobit zkreslení, které zkresluje data v jednom nebo druhém směru.
Také to dramaticky zpomaluje proces, protože počítačové systémy se musí potýkat s většími a většími datovými soubory.
V tolika různých projektech je velmi důležité, aby datoví inženýři spravovali data na omezené a specifické datové soubory - v případě výše by to byla pouze data pro tento segment zkoumaných zákazníků, pouze data za tu dobu rámec, který je studován, a přístup, který vylučuje další identifikátory nebo základní informace, které mohou zaměňovat věci nebo zpomalit systémy. (ReadJob Role: Data Engineer.)
Pro více se podívejme, jak to funguje na hranici strojového učení. (Přečtěte si strojové učení 101.)
Odborníci na strojové učení hovoří o něčem, co se nazývá „overfitting“, kdy příliš složitý model vede k méně efektivním výsledkům, když je program strojového učení na nových výrobních datech uvolněn.
K přeplnění dochází, když složitá sada datových bodů odpovídá počátečnímu tréninkovému souboru příliš dobře a neumožňuje programu snadno se přizpůsobit novým datům.
Nyní je překročení technicky způsobeno ne existencí příliš velkého množství datových vzorků, ale korunováním příliš velkého množství datových bodů. Mohli byste však namítnout, že příliš mnoho údajů může být také faktorem přispívajícím k tomuto typu problému. Řešení kletby dimenze zahrnuje některé stejné techniky, jaké byly provedeny v dřívějších velkých datových projektech, když se odborníci snažili přesně určit, co napájí IT systémy.
Pointa je, že velká data mohou být pro společnosti nesmírně užitečná, nebo se mohou stát velkou výzvou. Jedním z aspektů je to, zda má společnost ve hře správná data. Odborníci vědí, že není vhodné jednoduše skládat veškerá datová aktiva do zásobníku a přicházet s poznatky tímto způsobem - v nových cloudových nativních a sofistikovaných datových systémech existuje snaha kontrolovat a spravovat a spravovat data, aby byla přesnější a efektivní využití datových aktiv.