Domov Databáze Síla návrhu: jak datový katalog zmocňuje analytiky

Síla návrhu: jak datový katalog zmocňuje analytiky

Anonim

Od zaměstnanců Techopedia, 22. června 2016

Take away : Host Rebecca Jozwiak diskutuje o výhodách datových katalogů s Dezem Blanchfieldem, Robinem Bloorem a Davidem Crawfordem.

Chcete-li si prohlédnout toto video, musíte se zaregistrovat do této události. Chcete-li zobrazit video, zaregistrujte se.

Rebecca Jozwiak: Dámy a pánové, ahoj a vítejte v Hot Technologies roku 2016. Dnes máme: „Síla návrhu: Jak katalog dat zmocňuje analytiky.“ Jsem vaše hostitelka Rebecca Jozwiak, vyplňující našeho obvyklého hostitele Ericu. Kavanagh dnes, zatímco cestuje po světě, děkujeme, že jste se k nám připojili. Tento rok je horký, není to jen horké v Texasu, kde jsem, ale je horké všude. Objevuje se výbuch všech druhů nových technologií. Máme IoT, streamování dat, cloudové přijetí, Hadoop pokračuje v dospělosti a je adoptován. Máme automatizaci, strojové učení a vše je samozřejmě podtrženo údaji. A podniky se stávají stále více a více dat ze dne. A samozřejmě to má vést ke znalostem a objevům a, jak víte, dělat lepší rozhodnutí. Abychom však skutečně získali co největší hodnotu z dat, musí být snadné se k nim dostat. Pokud ji necháte zamknutou nebo pohřbenou nebo v mozku několika lidí v rámci podniku, nebude to pro podnik jako celek příliš dobré.

A tak jsem přemýšlel o katalogizaci dat a přemýšlení o průběhu knihoven, kde už dávno jste tam šli, pokud jste potřebovali něco najít, pokud jste potřebovali prozkoumat nějaké téma nebo vyhledat nějaké informace, šli jste do knihovny, a samozřejmě jste šli do katalogu karet nebo do krabí dámy, která tam pracovala. Ale bylo také zábavné se toulat po okolí, pokud jste se jen chtěli podívat, a určitě byste mohli objevit něco elegantního, můžete zjistit některá zajímavá fakta, která jste nevěděli, ale pokud jste opravdu potřebovali něco zjistit, a věděli jste, co jste hledali, potřebovali jste katalog karet a podnikovým ekvivalentem je samozřejmě katalog dat, který může našim uživatelům pomoci osvětlit všechna data, aby naši uživatelé mohli obohatit, objevovat, sdílet, spotřebovávat a opravdu pomáhat lidé získávají data rychleji a snadněji.

Dnes máme Dez Blanchfielda, našeho vlastního datového vědce, a máme doktora Robina Bloora, našeho vlastního hlavního analytika, máme Davida Crawforda z Alation, který bude mluvit o příběhu o katalogizaci dat své společnosti, ale nejprve jedeme s Dezem. Dezi, předávám ti míč a podlaha je tvoje.

Dez Blanchfield: Děkuji vám, děkuji, že jste mě dnes dostali . To je věc, o kterou se nesmírně zajímám, protože téměř v každé organizaci, se kterou se setkávám ve své každodenní práci, narazím na stejný problém, o kterém jsme se velmi krátce bavili v předváděčce, a to je to, že většina organizací, které podnikají déle než několik let, má v organizaci uloženo velké množství dat, různé formáty a ve skutečnosti mám klienty, kteří mají datové sady, které se vracejí zpět do Lotus Notes, databází, které jsou stále spuštěny v některých případy, jako jsou jejich pseudo internety, a oni se všichni potýkají s touto výzvou, aby skutečně zjistili, kde jsou jejich data, a jak k nim získat přístup, kdo jim poskytne přístup, kdy k nim má přístup a jak spravovat katalog a jak se dostat na místo, kde každý může: A) být si vědom toho, co tam je a co je v něm, a B), jak k němu získat přístup a používat jej. A jednou z největších výzev je samozřejmě nalezení, druhou velkou výzvou je vědět, co je tam a jak k němu přistupovat.

Možná dobře vím, že mám desítky databází, ale vlastně nevím, co je tam nebo jak zjistit, co tam je, a tak vždy, když objevujeme data v pre-show, máte tendenci chodit po kanceláři a klást otázky a křičet přes krychlové zdi a zkoušet a přijít na to, často moje zkušenost je, že dokonce zjistíte, že se potulujete před recepcí, recepcí a ptáte se, jestli někdo ví, kdo jdete si promluvit. Poměrně často to není vždycky lid IT, protože neví o datové sadě, protože ji někdo právě vytvořil, a mohlo by to být něco jednoduchého jako - docela často najdeme projekt nějakého druhu, který stojí v IT prostředí a projektový manažer použil tabulku všech věcí a dostal obrovské množství cenných informací o prostředcích, kontextu a jménech, a pokud tento projekt neznáte a neznáte toho člověka, tyto informace prostě nemůžete najít. Je to prostě není k dispozici, a musíte se chytit, že původní soubor.

Existuje fráze, která byla zakázána s ohledem na data, a nemusím s tím nutně souhlasit, ale myslím, že je to roztomilý malý únik a to je to, že určité množství lidí si myslí, že data jsou nový olej, a já jsem Určitě to budeme pokrývat v nějakém aspektu, později dnes. Co jsem si však všiml, určitě je součástí této transformace, je to, že organizace podniků, které se naučily hodnotit svá data, získaly oproti svým konkurentům významnou výhodu.

Asi před pěti nebo šesti lety byl IBM zajímavý dokument, který prozkoumal asi 4 000 společností zde v Austrálii a vzali všechny informace, všechny údaje o výkonu, všechna finanční data a dali je dohromady do vroucího hrnce a poté poslali ji na australskou ekonomickou školu a ve skutečnosti zde začali běžný trend, a to je to, že společnosti, které využívají technologii, vždy získaly takovou konkurenční výhodu oproti svým vrstevníkům a konkurentům samy o sobě, že jejich konkurenti téměř nikdy dohoní, a myslím, že to je nyní hodně v případě dat, která jsme viděli, co lidé nazývají digitální transformací, kde organizace, které jasně zjistily, jak najít data, která mají, zpřístupňují tato data a zpřístupňují je v některých velmi snadno spotřebovatelných móda pro organizaci, aniž by vždy věděla, proč ji organizace může potřebovat, a získat významnou výhodu nad konkurencí.

Na tomto snímku mám pár příkladů, které můžete vidět. Moje jediná sestava je, že rozsáhlé narušení téměř v každém průmyslovém odvětví je podle mého názoru poháněno údaji, a pokud současné trendy mají co jít, můj názor je, že jsme se opravdu dostali začalo, protože když se dlouhodobé značky konečně probudí, co to znamená a vstoupí do hry, vstoupí do hry za velkoobchod. Když začnou někteří hlavní prodejci, kteří mají data, začít na data používat nějakou historickou analýzu, pokud vůbec vědí, že existuje, pak někteří z online hráčů dostanou trochu buzení.

Ale s mnoha z většiny těchto značek mám na mysli, že máme Ubera, který je největší taxislužbou na světě. Nevlastní žádné taxíky, takže co z nich dělá magii, jaká jsou jejich data? Airbnb, největší poskytovatel ubytování, máme WeChat, největší telefonní společnost na světě, ale nemají žádnou skutečnou infrastrukturu a žádné telefony, žádné telefonní linky. Alibaba, největší prodejce na planetě, ale žádný z nich nevlastní. Facebook, největší mediální společnost ve slově. Myslím, že v poslední době měli nyní 1, 4 miliardy aktivních uživatelů dat, což je ohromující číslo. Není to nikde poblíž - myslím, že někdo tvrdil, že tam každý den skutečně existuje čtvrtina planety, a přesto zde je poskytovatel obsahu, který obsah nevytváří, všechna data, která slouží, nejsou jimi vytvořena, jsou vytvořena jejich předplatiteli a všichni známe tento model.

SocietyOne, o kterém jste nebo možná neslyšeli, je to místní značka, myslím, že v několika zemích je to banka, která skutečně poskytuje půjčky typu peer-to-peer, takže jinými slovy, nemá peníze. Vše, co dělá, je to, že řídí transakce a data jsou umístěna pod nimi. Netflix, jsme všichni velmi dobře obeznámeni. Je zde zajímavá obšívka. Když bylo Netflix legálně použitelné v Austrálii, když to bylo oficiálně oznámeno, nemuseli jste k tomu používat VPN, mnoho lidí po celém světě má sklon - pokud se k tomu ve vaší místní oblasti nemůžete dostat. - když byl Netfix spuštěn v Austrálii, zvýšil mezinárodní šířku pásma na našich internetových odkazech o 40 procent, takže téměř zdvojnásobil používání internetu v Austrálii přes noc, pouze jednou aplikací, jednou aplikací hostovanou v cloudu, která nedělá nic jiného než hrát s daty. Je to jen statistika ohromující mysli.

A samozřejmě, všichni jsme obeznámeni s Apple a Google, ale jedná se o největší softwarové firmy na planetě, ale ve skutečnosti nenapisují aplikace. Co je konzistentní se všemi těmito organizacemi? Jsou to data a oni se tam nedostali, protože nevěděli, kde jsou jejich data, a nevěděli, jak je katalogizovat.

Nyní zjišťujeme, že existuje celá tato nová třída aktiv označovaná jako data a společnosti se ji probouzí. Ne vždy však mají nástroje a know-how a proč mapovat všechna tato data, katalogizovat všechna tato data a zpřístupnit je, ale zjistili jsme, že společnosti s téměř žádnými fyzickými aktivy získaly vysokou tržní hodnotu v zaznamenat čas prostřednictvím této nové třídy datových aktiv. Jak jsem řekl, někteří ze starých hráčů se nyní probouzí a určitě to vyvedou ven.

Jsem velkým fanouškem, že vezmu lid na trochu cesty, takže v osmnácti stovkách, pozdních osmnácti stovkách, a ty se s tím na americkém trhu více než obeznámíš, ukázalo se, že to povede ke sčítání lidu každý rok je asi myslím, že je v tom okamžiku řídili každých deset let, ale pokud se chystáte každý rok sčítání lidu, mohlo by to trvat až osm nebo devět let, než bude analýza dat skutečně probíhat. Ukázalo se, že tato sada dat pak zůstala v krabicích na místech v papíru a téměř nikdo ji nemohl najít. Prostě stále čerpali tyto zprávy, ale ke skutečným datům bylo velmi těžké se dostat, máme podobnou situaci s jiným světově významným okamžikem, kolem 40. let 20. století, s druhou světovou válkou, a to je Bletchley Park Bombe hláskoval BOMBE, a byl to obrovský analytický nástroj, který procházel malými čísly, procházel malými datovými soubory a hledal v něm signály, a používal se jako pomůcka při rozbíjení kódů přes Enigma.

Tato věc byla opět v podstatě zařízením navrženým, ne příliš katalogizovat, ale označovat a mapovat data a umožnit pořizovat vzory a najít je uvnitř datových sad, v tomto případě rozbít kódy, najít klíče a fráze a najít pravidelně v souborech dat, a tak jsme prošli touto cestou hledání věcí v datech a vedli k katalogizaci dat.

A pak přišly tyto věci, tyto masivní levné regály strojů, jen stroje na skladě. A udělali jsme několik velmi zajímavých věcí a jednou z věcí, které jsme s nimi udělali, je, že jsme vytvořili klastry s velmi nízkými náklady, které by mohly začít indexovat planetu, a velmi skvěle tyto velké značky, které přicházejí a odcházejí, ale pravděpodobně je Google nejběžnějším domovem značka, o které jsme všichni slyšeli - stalo se skutečným slovesem a víte, že jste úspěšní, když se z vaší značky stane sloveso. Ale to, co nás Google naučil, aniž by si to uvědomil, možná v obchodním světě, je to, že dokázali indexovat celou planetu na určitou úroveň a katalogizovat data, která byla po celém světě, a zpřístupnit je velmi snadno, pohodlný formulář v malém malém jednořádkovém vzorci, webová stránka s téměř ničím na něm, a zadáte svůj dotaz, jde a najde to, protože již prolezli planetu, indexovali ji a snadno ji zpřístupnili.

A to, co jsme si všimli, bylo: „Dobrá, neděláme to v organizacích - proč je to tak? Proč je to, že máme organizaci, která dokáže mapovat celou planetu a indexovat ji, procházet a indexovat ji a zpřístupnit ji, můžeme ji vyhledat a poté kliknout na věc a najít ji, jak to, že nedělali to interně? “Takže existuje spousta těchto malých stojanů strojů po celém světě, které to nyní dělají pro intranety a hledají věci, ale stále se pořád jen potýkají s myšlenkou překročit tradiční web. stránku nebo souborový server.

Namísto toho, aby nyní vstupoval do této další generace datového katalogu mnoha způsoby, není objevování přístupu k datům prostřednictvím poznámek post-it a konverzací vodních chladičů skutečně vhodnou metodou pro vyhledávání a katalogizaci dat a ve skutečnosti si myslím, že to nikdy není opravdu byl. Už nemůžeme vést tuto celou výzvu k lidem, kteří pouze předávají poznámky, zveřejňují poznámky a chatují o tom. Jsme dobře a skutečně mimo oblast, kde nyní přichází a odchází tento přístup genové generace ke katalogizaci dat. Musíme to objmout. Pokud by to byl snadný problém, už bychom to vyřešili mnoha způsoby dříve, ale myslím si, že to není snadný problém, pouze indexování a vyvolání dat je jen jeho částí, protože věděl, co je v datech a budování metadat kolem toho, co objevujeme, a poté je zpřístupňujeme ve snadno konzumovatelné formě, zejména pro samoobslužné a analytické účely. Je to stále vyřešen problém, ale mnoho částí puzzle za pět let je dobře a skutečně vyřešeno a dostupné.

Jak víme, katalogizace dat pro lidi je receptem na selhání, protože lidská chyba je jednou z největších nočních můr, se kterými se zabýváme ve zpracování dat, a pravidelně o tomto tématu hovořím, kde podle mého názoru jsou lidé vyplňování papírových formulářů pravděpodobně největší noční můrou zabýváme se velkými daty a analytikou, abychom neustále opravovali věci, které dělají, a to i po jednoduchých věcech, jako jsou data a pole, lidé uvádějící nesprávný formát.

Ale jak jsem řekl, viděli jsme internetové vyhledávače indexovat svět každý den, takže nyní se dostáváme k myšlence, že to lze udělat na souborech obchodních dat v procesu objevování, a nástroje a systémy jsou nyní snadno dostupné, protože se dnes chystáte něco naučit. Trik je tedy podle mého názoru výběrem správných nástrojů, nejlepších nástrojů pro danou práci. A co je ještě důležitější, najděte tu správnou část, která vám pomůže začít touto cestou. A věřím, že o tom dneska uslyšíme, ale než to uděláme, půjdu na svou vysokou školu Robin Bloor a vyslechnu jeho názor na toto téma. Robine, můžu tě předat?

Robin Bloor: Ano, určitě můžete. Uvidíme, jestli to funguje, ano ano. Dobře, přicházím z jiného směru než Dez, ale skončí na stejném místě. Jde o připojení k datům, tak jsem si myslel, že bych procházel realitou připojení k datům, skutečně bod po bodu.

Je fakt, že data jsou více roztříštěná, než kdy byla. Objem dat fenomenálně roste, ale ve skutečnosti různé zdroje dat také rostou neuvěřitelnou rychlostí, a proto se data stále více fragmentují. Ale zejména kvůli analytickým aplikacím - ale nejedná se pouze o aplikace - máme opravdu dobrý důvod připojit se ke všem těmto datům, takže jsme uvízli na obtížném místě, uvízli jsme ve světě fragmentovaných dat, a v datech je příležitost, jak tomu říkal Dez, nový olej.

Co se týče dat, tak to bývalo na rotujícím disku, buď v souborových systémech nebo v databázích. Nyní žije v mnohem rozmanitějším prostředí, žije v souborových systémech, ale v současnosti také žije v instancích Hadoop nebo dokonce v případech Spark. Žije ve více druzích databáze. Není to tak dávno, co jsme standardizovali nějakou relační databázi, víte, že za posledních pět let vyšlo okno, protože existuje potřeba databází dokumentů a grafových databází, takže víte, že hra má změněno. Takže to žilo na rotujícím disku, ale nyní žije na SSD. Nejnovější množství SSD - určitě nejnovější jednotka SSD vychází z Samsungu - dvacet gigabajtů, což je obrovské. Nyní to žije v paměti, v tom smyslu, že prvotní kopie dat může být v paměti, spíše než na disku, my jsme nepoužívali takové systémy k vytváření; my teď. A žije v cloudu. Což znamená, že může žít v jakékoli z těchto věcí, v cloudu, nemusíte nutně vědět, kde je v cloudu, budete mít pouze jeho adresu.

Hadoop, jen aby se dostal do cíle, zatím selhal jako rozšiřitelný datový sklad. Doufali jsme, že se to stane rozšiřitelným datovým úložištěm a bude to jen jeden souborový systém pro všechno a bude - duhy se objeví na obloze, v podstatě a jednorožci se budou tančit kolem, a nic z toho se nestalo. Což znamená, že jsme skončili s problémem s přenosem dat a občas není nutný přenos dat, ale je to také obtížné. Data mají v dnešní době opravdu gravitaci, jakmile se dostanete do multi-terabajtů dat, sbíráte je a házíte je, způsobuje latence, které se objevují ve vaší síti nebo se objevují na různých místech. Pokud chcete data přenášet, je načasování faktorem. V dnešní době existují téměř vždy určitá omezení, kolik času musíte na jednu věc, na jednu data z jednoho místa na druhé. Bývaly to, co jsme si mysleli jako dávková okna, když byl stroj trochu nečinný, a bez ohledu na to, kolik dat jste měli, mohli byste je prostě hodit a všechno by fungovalo. Je to pryč, žijeme v mnohem realističtějším světě. Proto je načasování faktorem. Jakmile chcete data přesouvat, takže pokud mají data gravitaci, pravděpodobně je nemůžete přesunout.

Správa dat je faktorem v tom smyslu, že jste vlastně museli spravovat všechna tato data, nedostanete to zdarma, a může být nezbytná replikace, aby bylo možné skutečně získat data k vykonávání práce, kterou musí udělat, protože nemusí to být kdekoli. Nemusí mít dostatečné zdroje k tomu, aby provedl normální zpracování dat. Data se tedy replikují a data se replikují více, než byste si představovali. Myslím, že mi někdo už dávno řekl, že průměrná část dat je replikována nejméně dvakrát a půlkrát. ESB nebo Kafka představují možnost toku dat, ale v dnešní době to vyžaduje architekturu. V dnešní době opravdu potřebujete přemýšlet o tom, co to vlastně znamená házet data. Proto je obvykle výhodnější přístup k datům tam, kde jsou, pokud ovšem můžete získat výkon, který potřebujete, když skutečně jde o data a to závisí na kontextu. Takže je to stejně obtížná situace. Co se týče datových dotazů, zvykli jsme si myslet z hlediska SQL, přišli jsme opravdu nyní, víte, různé formy dotazů, SQL ano, ale sousední, také grafové dotazy, Spark je jen jedním z příkladů děláme grafy, protože také musíme více než kdy předtím hledat textové vyhledávání, také regexový typ vyhledávání, což je opravdu složité hledání vzorů a skutečné párování vzorů, všechny tyto věci ve skutečnosti probublávají. A všechny z nich jsou užitečné, protože vás dostanou, co hledáte, nebo vás mohou dostat to, co hledáte.

Dotazy nyní pokrývají několik dat, takže to vždy neudělalo, a často je výkon děsivý, pokud to uděláte. Závisí to tedy na okolnostech, ale lidé očekávají, že budou moci vyhledávat data z více zdrojů dat, takže federace dat stejného druhu se stává stále aktuálnější. Virtualizace dat, která je v závislosti na výkonu jiným způsobem, je také velmi běžná. Dotazy na data jsou ve skutečnosti součástí procesu, nikoli celého procesu. Stojí za to poukázat na to, že pokud se skutečně díváte na analytický výkon, může skutečná analytika trvat mnohem déle než shromažďování dat, protože to závisí na okolnostech, ale datové dotazy jsou naprosto nezbytné, pokud chcete dělat jakékoli analytika na více zdrojích dat, a to prostě musíte mít schopnosti, které pokrývají.

Takže o katalogech. Katalogy existují z nějakého důvodu, přinejmenším říkáme, že, víte, máme adresáře a máme schémata v databázích, a máme každý katalog a my, kamkoli jdete, najdete jedno místo a pak skutečně zjistíte, že existuje nějaký druh katalogu a sjednocený globální katalog je zjevně dobrý nápad. Ale jen velmi málo společností má takovou věc. Vzpomínám si, v roce dva tisíce - rok dva tisíce paniky - vzpomínám si, že komunisté nedokázali ani zjistit, kolik spustitelných souborů měli, nevadí, kolik různých datových úložišť měli, a je to pravděpodobně nyní nyní, víte, že většina společností aktivně neví v globálním smyslu, jaká data mají. Je zřejmé, že je stále nezbytnější mít skutečně globální katalog, nebo alespoň mít globální obraz o tom, co se děje kvůli růstu zdrojů dat a neustálému růstu aplikací, a to je zvláště nutné pro analytiku, protože také jedním způsobem, a existují zde další problémy, jako je počet řádků a problémy s daty, a je to nezbytné pro bezpečnost, mnoho aspektů správy dat, pokud opravdu nevíte, jaká data máte, nápad že se chystáte vládnout, je prostě absurdní. Takže v tomto případě jsou všechna data nějakým způsobem katalogizována, je to jen fakt. Otázkou je, zda je katalog soudržný a co vlastně s ním můžete dělat. Takže se vrátím zpět k Rebecce.

Rebecca Jozwiak: Dobře, díky Robin. Až budeme mít Davida Crawforda z Alation, Davida, půjdu dopředu a předám vám míč a vy ho můžete vzít pryč.

David Crawford: Děkuji moc. Opravdu si cením toho, že mě máte na této show. Myslím, že to začnu, takže si myslím, že mojí úlohou je vzít si tu teorii a zjistit, jak se skutečně používá, a výsledky, které jsme schopni řídit u skutečných zákazníků, a tak můžete vidět pár na snímku, chci mluvit o tom, jaké výsledky budeme moci vidět v analytické možná vylepšení. Abychom tuto diskusi motivovali, budeme mluvit o tom, jak se tam dostali. Mám tedy štěstí, že mohu velmi úzce spolupracovat se spoustou opravdu chytrých lidí, těchto zákazníků, a chci jen poukázat na pár, kteří byli schopni skutečně měřit, a hovořit o tom, jak datový katalog ovlivnil jejich analytiky. Pracovní postup. A abych jen stručně zůstal v popředí, myslím si, že jednou z věcí, které vidíme změnit, s datovými katalogy versus předchozími zprostředkovanými řešeními a jedním ze způsobů, jak si vztahy skutečně myslí o řešeních, která jsme dali dohromady, je začít od analytiků a pracovat zpět. Řekněme to tedy o umožnění produktivity analytiků. Na rozdíl od pouhé shody s předpisy nebo na rozdíl od pouhé inventury děláme nástroj, který zvyšuje produktivitu analytiků.

Takže, když mluvím s datovým vědcem ve společnosti Financial Services Company Square, je tu chlápek, Nicke, který nám vyprávěl o tom, jak jeho, zabral několik hodin, než našel ten správný datový soubor, aby mohl sestavit zprávu, nyní může udělejte to během několika vteřin pomocí vyhledávání podle podílu na trhu, mluvili jsme s jejich CTO, který vytáhl jeho analytiky, kteří používali Square, promiňte, používal Alation, abychom zjistili, jaké jsou jejich, jaké výhody viděli, a oznámili 50 procenta zvýšení produktivity a že jeden z nejlepších světových maloobchodníků, eBay, má přes tisíc lidí, kteří pravidelně provádějí analýzu SQL, a já tam docela úzce spolupracuji s Deb Says, kdo je projektem manažerka v jejich týmu datových nástrojů, a zjistila, že když dotazující přijmou Alation, přijmou katalog, vidí dvojnásobnou rychlost psaní nových dotazů do databáze.

Takže to jsou skutečné výsledky, to jsou lidé, kteří skutečně používají katalog ve své organizaci, a já vás chci seznámit s tím, co je potřeba k nastavení. Jak se katalog zavede ve společnosti a možná nejdůležitější je říci, že se toho hodně děje automaticky, takže Dez mluvil o systémech, učení o systémech a to je přesně to, co dělá moderní datový katalog. Nainstalují tedy Alation do svého datového centra a poté jej připojí k různým zdrojům metadat v jejich datovém prostředí. Trochu se zaměřím na databáze a nástroje BI - z obou těchto budeme extrahovat technická metadata, v podstatě o tom, co existuje. Dobře, tak jaké tabulky? Jaké zprávy? Jaké jsou definice zprávy? Proto extrahují tato technická metadata a automaticky se vytvoří katalogová stránka pro každý objekt uvnitř těchto systémů, a poté také extrahují a navrstvují nahoře tato technická metadata, navrstvují nahoře data použití. To se děje především čtením protokolů dotazů z databáze, což je opravdu zajímavý zdroj informací. Takže kdykoli analytik napíše dotaz, kdykoli nástroj pro vytváření přehledů, ať už je to domácí pěstování nebo mimo regál, zda nástroj pro vytváření přehledů spustí dotaz za účelem aktualizace řídicího panelu, když aplikace spustí dotaz, aby vložila data, na která se má pracovat soubor dat - všechny tyto věci jsou zachyceny v protokolech dotazů databáze. Ať už máte katalog nebo ne, jsou zachyceny v protokolu dotazů s databází. Co katalog dat může udělat, a zejména co katalog Alation může udělat, je přečíst tyto protokoly, zeptat se na dotazy uvnitř nich a vytvořit opravdu zajímavý graf využití založený na těchto protokolech, a my to uvedeme do hry, abychom informovali budoucí uživatele. údajů o tom, jak je uživatelé v minulosti použili.

Takže všechny tyto znalosti spojujeme do katalogu a jen proto, aby se to stalo skutečností, jedná se o integrace, které jsou již nasazeny u zákazníků, takže jsme viděli Oracle, Teradata, Redshift, Vertica a spoustu dalších relační databáze. Ve světě Hadoop existuje řada SQL na Hadoopu, jakýsi relační, meta obchody na vrcholu systému souborů Hadoop, Impala, Tez, Presto a Hive, také jsme byli svědky úspěchu u soukromých poskytovatelů cloudu Hadoop jako Altiscale a my se také mohli připojit k serverům Tableau, serverům MicroStrategy a indexovat dashboardy tam, stejně jako integrace s nástroji pro mapování dat, jako je Plotly.

Připojujeme se tedy ke všem těmto systémům, připojujeme tyto systémy k zákazníkům, zatahujeme do technických metadat, zatahujeme do dat o použití, a tak trochu automaticky připravujeme datový katalog, ale tímto způsobem centralizovat znalosti, ale pouze centralizovat věci do datového katalogu, samo o sobě neposkytuje ty opravdu skvělé zvýšení produktivity, o kterých jsme hovořili s eBay, Square a podílem na trhu. Abychom toho mohli dosáhnout, musíme skutečně změnit způsob, jakým uvažujeme o poskytování znalostí analytikům. Jednou z otázek, na které se na to připravují, bylo: „Jak katalog skutečně ovlivňuje pracovní postup analytiků?“

To je to, co trávíme celý den přemýšlením o tom, a když chceme mluvit o této změně v myšlení, o modelu push versus pull, chtěl jsem udělat rychlou analogii s tím, jaký byl svět před a po přečtení na Kindle. Takže je to jen zážitek, který někteří z vás mohou mít, když čtete fyzickou knihu, narazíte na slovo, nejste si jisti, že znáte definici toho slova super dobře, můžete to uhodnout z kontextu, ne tak pravděpodobné, že jdou vstát z gauče, jít do své knihovny, najít svůj slovník, poprášit ho a převrátit na správné místo v abecedním seznamu slov, aby se ujistil, že ano, měli jste tuto definici v pořádku a víte nuance toho. Takže se to opravdu nestane. Takže si koupíte aplikaci Kindle a začnete tam číst knihy a uvidíte slovo, o kterém si nejste úplně jisti, a dotknete se ho. Najednou, právě na stejné obrazovce, je definice slovníku slovo, se všemi jeho nuancemi, různými příklady použití, a trochu přejedete prstem a získáte článek na toto téma z Wikipedie, znovu přejdete prstem, získáte překladatelský nástroj, který jej dokáže přeložit do jiných jazyků nebo z jiných jazyků, a najednou vaše znalost jazyka je mnohem bohatší, a to se stává jen ohromující početkrát, ve srovnání s tím, kdy jste museli jít a vytáhněte tento zdroj pro sebe.

A tak se chystám argumentovat, že pracovní postup analytika a způsob, jakým se analytik bude zabývat datovou dokumentací, je ve skutečnosti velmi podobný tomu, jak čtenář bude komunikovat se slovníkem, ať už fyzickým, nebo i když Kindle, a tak co my, způsob, jakým jsme skutečně viděli toto zvýšení produktivity, není rozlití katalogu, ale jeho propojení s pracovním tokem analytika, a tak mě požádali, abych provedl demo, a já chci aby se tato prezentace zaměřila na tuto prezentaci. Ale já jen chci nastavit kontext pro demo. Když přemýšlíme o nasměrování znalostí o údajích k uživatelům, když je potřebují, myslíme si, že je to správné místo, místo, kde tráví svůj čas a kde provádějí analýzu, je dotazovací nástroj SQL. Místo, kde můžete psát a spouštět dotazy SQL. A tak jsme jeden vytvořili, a postavili jsme jej, a věc, která se na něm opravdu liší od ostatních nástrojů pro dotazování, je jeho hluboká integrace s katalogem dat.

Náš vyhledávací nástroj se tedy nazývá Alation Compose. Je to webový dotazovací nástroj a za chvilku vám to ukážu. Webový dotazovací nástroj, který funguje ve všech logách databáze, které jste viděli na předchozím snímku. Zejména se pokusím ukázat způsob, jakým informace o katalogu přicházejí k uživatelům. A to prostřednictvím těchto tří různých způsobů. Dělá to prostřednictvím zásahů, a to je místo, kde někdo, kdo je guvernérem dat nebo správcem dat, nebo jakýmsi správcem nějakým způsobem, nebo manažerem, může říci: „Chci trochu vložit poznámku nebo varování v pracovní postup a ujistěte se, že je doručen uživatelům ve správný čas. “Takže to je zásah a my to ukážeme.

Inteligentní návrhy je způsob, jak nástroj používá všechny své agregované znalosti katalogu k navrhování objektů a částí dotazu při jeho psaní. Nejdůležitější věcí, které je třeba vědět, je to, že to opravdu využívá protokol dotazů, aby to provedlo, navrhnout věci založené na použití a také najít dokonce i části dříve napsaných dotazů. A ukážeme to.

A pak náhledy. Náhledy jsou, když píšete název objektu, ukážeme vám vše, co katalog zná, nebo alespoň nejdůležitější věci, které katalog o tomto objektu ví. Takže vzorky dat, které je dříve používaly, logické jméno a popis tohoto objektu, vás všechny při psaní píšou, aniž byste o to museli jít.

Takže bez dalšího mluvení se dostanu k demu a budu čekat, až se objeví. Zde vám ukážu dotazovací nástroj. Je to vyhrazené rozhraní pro psaní SQL. V určitém smyslu je to oddělené rozhraní od katalogu. Dez a Robin hovořili o katalogu a já trochu přeskočím přes rozhraní katalogu přímo k tomu, jak je to přivedeno přímo ke zpracování pracovního postupu.

Právě zde ukazuji místo, kde mohu psát SQL, a dole uvidíte, že se objevují nějaké informace o objektech, na které odkazujeme. Takže začnu psát dotaz a zastavím se, až se dostanu k jednomu z těchto zásahů. Takže napíšu „select“ a já chci rok. Chci jméno. A já se podívám na nějaké údaje o platu. Jedná se tedy o soubor údajů o vzdělávání. Má informace o vysokých školách a dívám se na průměrný plat fakulty, který je v jedné z těchto tabulek.

Takže jsem ve skutečnosti napsal slovo „plat“. Tímto způsobem to není přesně ve jménu sloupce. K návrhům používáme jak logická metadata, tak fyzická metadata. A na co bych chtěl upozornit, je tato žlutá skříňka, která se zde objevuje. V tomto sloupci je uvedeno varování. Nehledal jsem to, nebral jsem třídu, jak správně používat tato data. Přišlo mi to a stalo se to varování před dohodou o mlčenlivosti, která souvisí s těmito údaji. Takže existují určitá pravidla zveřejňování. Pokud se budu dotazovat na tato data, vyjmu data z této tabulky, měl bych být opatrný, jak je zveřejním. Takže zde máte politiku správy. Existují určité problémy s dodržováním předpisů, které usnadňují dodržování těchto zásad, když o nich vím v době, kdy se dívám na data.

Takže to mám přijít a pak se také podívám na výuku. A tady vidíme náhledy, které vstupují do hry. Vidím na tomto sloupci výuky - na tabulce institucí je sloupec výuky, a vidím to jeho profil. Alation pokračuje a stahuje ukázková data z tabulek, a v tomto případě mi ukazuje něco, co je docela zajímavé. Ukazuje mi rozdělení hodnot a ukazuje mi, že nulová hodnota se ve vzorku ukázala 45krát, a více než kterákoli jiná hodnota. Mám tedy pocit, že nám možná chybí některá data.

Pokud jsem pokročilý analytik, může to být již součástí mého pracovního postupu. Zejména pokud jsem obzvláště pečlivý, kde bych dopředu udělal spoustu profilovacích dotazů. Kdykoli se blížím k novému datu, vždy přemýšlím o tom, co je naše pokrytí dat. Ale pokud jsem nová v analýze dat, pokud jsem nová v této sadě dat, mohl bych předpokládat, že pokud existuje sloupec, vyplní se po celou dobu. Nebo bych mohl předpokládat, že pokud to není vyplněno, není to nula, je to null nebo něco takového. Ale v tomto případě máme spoustu nul, a kdybych udělal průměr, pravděpodobně by se mýlili, kdybych jen předpokládal, že tyto nuly jsou ve skutečnosti nula místo chybějících dat.

Ale Alation, vložením tohoto náhledu do svého pracovního postupu, vás druh požádá, abyste se podívali na tyto informace, a dává tak trochu začínajícím analytikům šanci vidět, že je zde něco, co si o těchto datech všimnout. Takže máme ten náhled.

Další věc, kterou budu dělat, je pokusit se zjistit, z jakých tabulek získám tyto informace. Takže zde vidíme chytré návrhy. Po celou dobu to chodilo, ale zejména tady jsem nic nenapsal, ale navrhne mi, které tabulky bych pro tento dotaz mohl použít. A co je nejdůležitější vědět o tom je, že využívá statistiky využití. Takže v prostředí, jako je například eBay, kde máte v jedné databázi stovky tisíc tabulek, je pro jejich výrobu opravdu důležité mít nástroj, který dokáže zasáhnout pšenici z plev a používat tyto statistiky využití. návrhy stojí za něco.

Takže to navrhne tuto tabulku. Když se podívám na náhled, ve skutečnosti zvýrazníme tři sloupce, které jsem již zmínil v dotazu. Takže vím, že mají tři, ale to nemá jméno. Musím získat jméno, takže se připojím. Když se připojím, nyní mám opět tyto náhledy, které mi pomohou najít, kde je tabulka s názvem. Takže vidím, že tohle má pěkně formátované, druh řádně velkých písmen. Zdá se, že má pro každou instituci jeden řádek s názvem, takže to chci chytit a teď potřebuji podmínku připojení.

A tady tedy Alation dělá opět ohlížení zpět do protokolů dotazů, vidět předchozí časy, kdy byly tyto dvě tabulky spojeny, a navrhuje různé způsoby, jak se k nim připojit. Opět je tu nějaký zásah. Když se podívám na jednu z nich, dostane varování, které mi ukazuje, že by to mělo být použito pouze pro agregovanou analýzu. Pravděpodobně způsobí špatnou věc, pokud se snažíte něco udělat prostřednictvím instituce po instituci. Zatímco tato s OPE ID je schválena jako správný způsob spojení těchto dvou tabulek, pokud chcete data na univerzitní úrovni. Takže to dělám, a je to krátký dotaz, ale napsal jsem svůj dotaz, aniž bych měl nutně nahlédnout do toho, co jsou data. Vlastně jsem se nikdy nepodíval na ER diagram tohoto souboru dat, ale o těchto datech vím už dost, protože mi přicházejí příslušné informace.

Jedná se tedy o tři způsoby, jak může katalog pomocí integrovaného nástroje pro dotazování přímo ovlivnit pracovní postup při psaní dotazů. Jednou z dalších výhod integrace dotazovacího nástroje do katalogu je však to, že když dokončím svůj dotaz a uložím jej, mohu vložit název jako „Institucionální výuka a plat na fakultě“ a poté zde mám tlačítko, které umožňuje mi to pouze publikovat do katalogu. Je pro mě velmi snadné nakrmit to zpět. I když to nezveřejňuji, je to zachyceno jako součást protokolu dotazů, ale když je publikuji, ve skutečnosti se stane součástí způsobu, jakým centralizované místo, kde žijí veškeré znalosti o datech.

Takže pokud kliknu na Vyhledat všechny dotazy v Alaci, dostanu se - a zde uvidíte další rozhraní katalogu - přejdu k vyhledávacímu dotazu, který mi ukazuje způsob, jak najít dotazy napříč celá organizace. A vidíte, že můj nově publikovaný dotaz je nahoře. A někteří si zde mohou všimnout, když zachycujeme dotazy, také zachycujeme autory, a tak nějak navazujeme tento vztah mezi mnou jako autorem a těmito datovými objekty, o kterých nyní vím něco. A já jsem ustanoven jako expert na tento dotaz a na tyto datové objekty. To je opravdu užitečné, když se lidé potřebují naučit něco o datech, pak mohou jít najít tu správnou osobu, o které se chtějí dozvědět. A pokud jsem ve skutečnosti nová data, ať už jsem pokročilý analytik - jako pokročilý analytik, mohl bych se na to podívat a vidět spoustu příkladů, které by mě přiměly začít s novou sadou dat. Jako někdo, kdo se nemusí cítit velmi důvtipný s SQL, mohu najít předem připravené dotazy, které jsou zprávy, které mohu využít.

Zde je jeden od Phil Mazanett o průměrných SAT skóre. Klikněte na toto a dostanu jakousi katalogovou stránku pro samotný dotaz. Hovoří o článku, který byl napsán a který odkazuje na tento dotaz, takže je tu nějaká dokumentace, kterou si mohu přečíst, pokud se chci naučit, jak jej používat. A mohu jej otevřít v dotazovacím nástroji kliknutím na tlačítko Vytvořit a můžu to spustit sám, aniž bych jej upravoval. A ve skutečnosti uvidíte trochu našich lehkých možností vytváření přehledů, kde, když píšete dotaz, můžete upustit od proměnné šablony, jako je tato, a vytváří jednoduchý způsob, jak vytvořit formulář pro provádění dotazu na pár parametrů.

To je to, co mám pro demo. Přejdu zpět na snímky. Jen pro shrnutí jsme ukázali, jak může správce, správce dat, zasáhnout upozorněním na objekty, které se zobrazují v dotazovacím nástroji, jak Alation využívá své znalosti o používání datových objektů k vytváření inteligentních návrhů, jak přináší v profilování a dalších tipech, jak zlepšit pracovní toky analytiků, když se dotýkají konkrétních objektů, a jak se všechny tyto druhy kanálů vracejí do katalogu při psaní nových dotazů.

Očividně jsem mluvčím jménem společnosti. O datových katalogech řeknu pěkné věci. Pokud chcete slyšet přímo od jednoho z našich zákazníků, Kristie Allen v Safeway provozuje tým analytiků a má opravdu skvělý příběh o době, kdy potřebovala opravdu porazit hodiny, aby mohla uskutečnit marketingový experiment, a jak celá její tým použil Alation ke spolupráci a obratu v tomto projektu. Takže můžete sledovat tento bit.ly odkaz a zkontrolovat tento příběh, nebo pokud chcete slyšet něco o tom, jak Alation může přinést datový katalog do vaší organizace, rádi vám sestavíme přizpůsobené demo. Díky moc.

Rebecca Jozwiak: Díky moc, Davide. Jsem si jistý, že Dez a Robin mají několik otázek, než se obrátím k otázkám a odpovědím publika. Dez, chceš jít první?

Dez Blanchfield: Rozhodně. Miluji myšlenku tohoto konceptu publikovaných dotazů a jejich propojení zpět se zdrojem autora. Byl jsem dlouholetým šampiónem této myšlenky interního obchodu s aplikacemi a myslím si, že je to opravdu skvělý základ, na kterém lze stavět.

Přišel jsem k nějakému nahlédnutí do některých organizací, které to děláte, a do některých příběhů o úspěchu, které by mohli mít s celou touto cestou, a to nejen využít svůj nástroj a platformu k objevování dat, ale také pak také transformují své vnitřní kulturní a behaviorální rysy. Nyní máme tento druh interního obchodu s aplikacemi, kde si jen stáhnete, což je koncept, kde jej nejenže najdou, ale ve skutečnosti mohou začít rozvíjet malé komunity s chovateli těchto znalostí.

David Crawford: Jo, myslím, že jsme byli překvapeni. Věříme v hodnotu sdílení dotazů, a to jak z mé minulosti jako produktového manažera v Adtech, tak od všech zákazníků, se kterými jsme hovořili, ale stále mě překvapilo, jak často je to jedna z prvních věcí, které zákazníci mluvit o hodnotě, kterou dostanou z Alation.

Dělal jsem nějaké uživatelské testování dotazovacího nástroje u jednoho z našich zákazníků s názvem Invoice2go, a měli produktového manažera, který byl relativně nový, a řekli - ve skutečnosti mi během uživatelského testu řekl: „Vlastně bych to neudělal budu psát SQL vůbec, kromě toho, že je to snadné od Alation. “A samozřejmě, jako PM, tak nějak chodím:„ Co tím myslíš, jak jsme to udělali? “A řekl:„ No, opravdu je to jen protože se mohu přihlásit a vidím všechny tyto existující dotazy. “Počínaje prázdnou tabulkou s SQL je neuvěřitelně těžké udělat, ale upravit existující dotaz, kde můžete vidět výsledek, který je vydán, a můžete říci: "Oh, já jen potřebuji tento sloupec navíc, " nebo "Potřebuji filtrovat do určitého rozsahu dat, " to je mnohem jednodušší věc.

Viděli jsme některé z těchto pomocných rolí, jako jsou produktoví manažeři, možná lidé v prodejních operacích, kteří se začínají vyzvedávat a kteří se vždy chtěli naučit SQL a začít si ho vyzvedávat pomocí tohoto katalogu. Také jsme viděli, že mnoho společností se pokusilo udělat nějaký open source. Snažil jsem se tyto druhy věcí budovat interně, kde sledují dotazy a zpřístupňují je, a je tu opravdu mnoho komplikovaných výzev k jejich vytvoření. Facebook má interní nástroj, kterému říkali HiPal, který zachytil všechny dotazy napsané na Úlu, ale co zjistíte, je to, že pokud nechcete uživatele nějakým způsobem zatlačit správným způsobem, stačí skončit velmi dlouhý seznam vybraných příkazů. A jako uživatel, který se snaží zjistit, zda je dotaz pro mě užitečný, nebo je-li to dobré, pokud se jen podívám na dlouhý seznam vybraných výroků, bude mi to trvat mnohem déle, než tam něco získá z hodnoty, než začínat od nuly. Pečlivě jsme přemýšleli o tom, jak vytvořit katalog dotazů, který přináší správné věci na frontu a poskytuje jej užitečným způsobem.

Dez Blanchfield: Myslím, že všichni projdeme tuto cestu od velmi mladého věku do dospělosti mnoha způsoby. Spousta technologií. Já osobně jsem prošel tou samou pravou věcí, jako když jsem se naučil řezat kód. Prošel jsem časopisy a potom knihami a studoval jsem na určitou úroveň, pak jsem musel jít a vlastně na to získat další školení a vzdělání.

Ale neúmyslně jsem zjistil, že i když jsem chodil od výuky sebe a čtení časopisů a čtení knih a sekání programů jiných lidí a odchodu do kurzů na něm, pořád jsem se nakonec učil tolik z kurzů, jako jsem mluvil jen s ostatními lidé, kteří měli nějaké zkušenosti. A myslím si, že je to zajímavý objev, který nyní, když to přinesete do datové analýzy, v podstatě vidíme stejnou paralelu, že lidské bytosti jsou vždy docela chytré.

Druhou věcí, kterou opravdu chci pochopit, je, že na velmi vysoké úrovni se mnoho organizací zeptá: „Jak dlouho trvá, než se dostaneme k tomuto bodu?“ Jaký je časový bod zvratu, když se lidé dostanou nainstalovaná platforma a oni začali objevovat typy nástrojů? Jak rychle lidé viděli, jak se tato věc mění ve skutečně okamžitý „a-ha“ okamžik, kdy si uvědomí, že se už ani nestarají o návratnost investic, protože je to tam, ale teď vlastně mění způsob, jakým podnikají ? A objevili ztracené umění a očekávají, že s tím dokážou něco opravdu, opravdu se bavit.

David Crawford: Jo, můžu se toho trochu dotknout. Myslím, že když se nainstalujeme, jedna z hezkých věcí, jedna z věcí, které se lidem líbí o katalogu, který je přímo připojen k datovým systémům, je to, že nezačnete prázdné místo, kde jej musíte vyplnit. stránku po stránce. A to je pravda o předchozích datových řešeních, kde byste měli začít s prázdným nástrojem a musíte začít vytvářet stránku pro vše, co chcete dokumentovat.

Protože dokumentujeme tolik věcí automaticky extrahováním metadat, v zásadě během několika dní po instalaci softwaru, můžete si udělat obrázek o svém datovém prostředí, které je v nástroji nejméně 80 procent. A pak si myslím, že jakmile lidé začnou psát dotazy pomocí tohoto nástroje, automaticky se ukládají zpět do katalogu, a tak se začnou také zobrazovat.

Nechci být příliš nadšený, když to uvedu. Myslím, že dva týdny jsou docela dobrý konzervativní odhad na měsíc. Dva týdny až měsíc, konzervativní odhad skutečného obratu a pocit, že z toho získáváte hodnotu, jako byste se začínali dělit o nějaké znalosti a mohli tam jít a zjistit věci o svých datech.

Dez Blanchfield: Je to docela úžasné, opravdu, když o tom přemýšlíte. Skutečnost, že některé z velkých datových platforem, které účinně indexujete a katalogizujete, bude někdy trvat až rok, než se řádně implementují a nasadí a postaví.

Poslední otázkou, kterou pro vás mám, než jsem ji předal Robin Bloorovi, jsou konektory. Jedna z věcí, která na mě okamžitě vyskočí, je, že jste zjevně celou tu výzvu vyřešili. Takže je tu pár otázek opravdu rychle. Jeden, jak rychle se konektory implementují? Samozřejmě začnete s největší platformou, jako jsou Oracles a Teradata atd. A DB2. Jak ale pravidelně vidíte nové konektory a jak dlouho to trvá? Představuji si, že pro ně máte standardní rámec. A jak hluboko do nich chodíš? Například Oracles a IBM světa, a dokonce i Tereadata, a pak některé z populárnějších pozdních open-source platforem. Pracují přímo s vámi? Objevujete to sami? Musíte mít vnitřní znalosti na těchto platformách?

Jak to vypadá, jak se vyvíjí konektor a jak hluboko se zapojíte do těchto partnerství, abyste zajistili, že tyto konektory objevují vše, co můžete?

David Crawford: Ano, je to skvělá otázka. Myslím, že z velké části můžeme konektory vyvinout. Určitě jsme to udělali, když jsme byli mladší startup a neměli jsme zákazníky. Spoje můžeme určitě rozvíjet, aniž bychom potřebovali jakýkoli interní přístup. Nikdy nezískáme žádný zvláštní přístup k datovým systémům, které nejsou veřejně dostupné, a často bez potřeby jakýchkoli důvěrných informací. Využíváme služeb metadat dostupných samotnými datovými systémy. Často mohou být docela složité a obtížně s nimi pracovat. Znám zejména SQL Server, způsob, jakým spravují protokol dotazů, existuje několik různých konfigurací a je to něco, s čím opravdu musíte pracovat. Musíte správně porozumět nuancím a knoflíkům a číselníkům, abyste je nastavili správně, a to je něco, na čem pracujeme se zákazníky, protože jsme to už několikrát udělali.

Ale do jisté míry je to jakýsi veřejný API, který je k dispozici, nebo veřejná rozhraní, která jsou k dispozici a které využíváme. Máme partnerství s několika těmito společnostmi, což je většinou důvodem pro certifikaci, takže se cítí pohodlně, když říkáme, že pracujeme, a také nám mohou poskytnout prostředky pro testování, někdy i včasný přístup možná k platformě, která vyjde, aby se ujistila, že pracujeme na nových verzích.

Abych změnil nové spojení, řekl bych znovu, snažím se být konzervativní, řekněme šest týdnů až dva měsíce. Záleží na tom, jak je to podobné. Některé Postgreovy práce tak vypadají velmi podobně jako Redshift. Redshift a Vertica sdílejí spoustu detailů. Takže můžeme tyto věci využít. Ale jo, šest týdnů až dva měsíce by bylo fér.

Máme také API, takže - myslíme také na Alaci jako na metadatovou platformu, takže pokud pro nás není nic, co bychom mohli oslovit a automaticky popadnout, existují způsoby, jak můžete sami napsat konektor a vložit jej do našeho systému, takže že se vše stále centralizuje do jediného vyhledávače.

Dez Blanchfield: Fantastický. Oceňuji, že. Takže to předáme Robinovi, protože jsem si jistý, že má také spoustu otázek. Červenka?

Rebecca Jozwiak: Robin může být na němý.

Dez Blanchfield: Máte na němý zvuk.

Robin Bloor: Jo, správně. Promiň, já jsem ztlumil sebe. Když to provedete, jaký je proces? Jsem trochu zvědavý, protože na mnoha místech může být mnoho dat. Jak to tedy funguje?

David Crawford: Jo, jasně. Jdeme dovnitř, nejdřív je to proces IT, který zajišťuje, aby byl náš server zajištěn, aby bylo zajištěno, že jsou k dispozici síťová připojení, že jsou otevřené porty, abychom mohli skutečně přistupovat k systémům. Všichni často vědí, se kterými systémy chtějí začít. Znalost uvnitř datového systému, který - a někdy jim vlastně pomůžeme. Pomůžeme jim v úvodním pohledu na jejich protokol dotazů, aby pochopili, kdo používá to, co a kolik uživatelů má v systému. Pomůžeme tedy zjistit, kde - často, pokud mají stovky nebo tisíce lidí, kteří by se mohli přihlásit do databází, vlastně nevědí, kde se přihlašují, takže můžeme zjistit, dotaz zaznamenává, kolik jedinečných uživatelských účtů se skutečně přihlašujete a spouštíte dotazy zde zhruba za měsíc.

Můžeme to využít, ale často jen u těch nejdůležitějších. Necháme je nastavit a pak je zde proces říkat: "Pojďme upřednostnit." Paralelně se může objevit řada aktivit. Zaměřil bych se na školení pro používání dotazovacího nástroje. Jakmile lidé začnou používat dotazovací nástroj, v první řadě mnoho lidí miluje skutečnost, že je to jediné rozhraní ke všem jejich různým systémům. Také se jim líbí skutečnost, že je webová, nezahrnuje žádné instalace, pokud to nechtějí. Z hlediska bezpečnosti se jim líbí mít jediný vstupní bod, ze síťového hlediska, mezi jakýmsi korpusovým IT sítí a datovým centrem, kde žijí produkční zdroje dat. A tak nastaví Alation jako dotazovací nástroj a začnou používat Compose jako přístupový bod pro všechny tyto systémy.

Jakmile se tak stane, soustředíme se na školení, abychom pochopili, jaké jsou rozdíly mezi webovým nebo serverovým dotazovacím nástrojem oproti nástroji, který byste měli na svém počítači, a některé nuance použití že. Zároveň se pokusíme o identifikaci nejcennějších údajů, znovu využijeme informace z protokolu dotazů a řekneme: „Hej, možná budete chtít jít dovnitř a pomoci lidem to pochopit. Začněme publikováním reprezentativních dotazů v těchto tabulkách. “To je někdy nejúčinnější způsob, jak velmi rychle přimět lidi, aby se roztočili. Pojďme se podívat na vlastní historii dotazů, publikovat tyto věci tak, aby se zobrazovaly jako první dotazy. Když se lidé podívají na stránku tabulky, uvidí všechny dotazy, které se této tabulky dotkly, a mohou začít odtud. A pak začněme přidávat tituly a popisy k těmto objektům, aby je bylo snazší najít a hledat, abyste věděli některé nuance, jak je používat.

Dbáme na to, abychom si důkladně prohlédli protokol dotazů, abychom mohli vygenerovat linii. Jednou z věcí, kterou děláme, je, že se podíváme do protokolu dotazů v době, kdy se data přesunují z jedné tabulky do druhé, a to nám umožňuje klást jednu z nejčastěji kladených otázek o tabulce dat, odkud to vzešlo? Jak tomu mohu věřit? A tak můžeme ukázat nejen to, z jakých dalších tabulek pochází, ale také to, jak se transformoval podél cesty. Toto je opět způsobeno protokolem dotazů.

Ujišťujeme se tedy, že tyto věci jsou nastaveny a že do systému dostáváme řádek a zaměřujeme se na nejcennější a nejpoužívanější metadata, která můžeme získat na stránkách tabulky, takže při hledání najdete něco užitečného.

Robin Bloor: Dobře. Druhá otázka - je tu spousta otázek od publika, takže se tady nechci zabírat příliš mnoho času - další otázkou, na kterou se takový druh myslí, jsou jen body bolesti. Spousta softwaru se koupila, protože lidé mají tak či onak potíže s něčím. Jaký je tedy společný bod bolesti, který vede lidi k Alaci?

David Crawford: Jo. Myslím, že jich je pár, ale myslím, že jedním z těch, které často slyšíme, je analytik na palubě. "V nejbližší době budu potřebovat najmout 10, 20, 30 lidí, kteří budou muset z těchto dat získat nové poznatky, jak se dostanou na rychlost?" řešit. Také se zbavuje vyšších analytiků, že tráví veškerý čas odpovědí na dotazy jiných lidí na data. To je také velmi časté. A obojí jsou v zásadě problémy se vzděláváním.

A pak bych řekl další místo, které vidíme, jak lidé přijímají Alation, když chtějí vytvořit zcela nové datové prostředí, ve kterém by někdo pracoval. Chtějí to interně inzerovat a uvádět na trh, aby ho lidé mohli využít. Pak je Alation frontendem k novému analytickému prostředí velmi přitažlivé. Má dokumentaci, jeden bod úvodu do - jediný bod přístupu k systémům, a tak je to další místo, kam k nám lidé přijdou.

Robin Bloor: Dobře, předám tě Rebecce, protože se vás publikum snaží dostat.

Rebecca Jozwiak: Ano, máme zde spoustu opravdu dobrých otázek pro publikum. A Davide, tohle byl speciálně pro tebe. Je to od někoho, kdo má zjevně nějaké zkušenosti s lidmi, jakési zneužívání dotazů, a říká, že čím více zmocňujeme uživatele, tím těžší je řídit odpovědné využívání výpočetních zdrojů. Můžete se tedy bránit šíření zavádějících, ale běžných dotazových frází?

David Crawford: Jo, vidím tuto otázku. Je to skvělá otázka - na jednu dost často dostáváme. Bolest jsem viděl sám v předchozích společnostech, kde musíte trénovat uživatele. Například: „Toto je tabulka protokolů, má záznamy, které se vracejí roky. Pokud se chystáte napsat dotaz na tuto tabulku, musíte se opravdu omezit datem. “Například, toto je školení, které jsem absolvoval v předchozí společnosti předtím, než mi byl poskytnut přístup k databázi.

Máme několik způsobů, jak se to snažíme řešit. Řekl bych, že si myslím, že data protokolu dotazů jsou skutečně jedinečně cenná pro jejich řešení. Poskytuje další náhled proti tomu, co databáze interně dělá s jeho plánovačem dotazů. A co děláme, je jeden z těch zásahů - máme manuální zásahy, které jsem ukázal, a to je užitečné, že? Například při konkrétním spojení můžete říci: „Pojďme to zastarat.“ Když se objeví v chytrém návrhu, bude mít velkou červenou vlajku. To je jeden způsob, jak se pokusit dostat k lidem.

Další věc, kterou děláme, je automatizovaná při provádění intervencí. Ve skutečnosti použijeme strom rozebrání dotazu, než ho spustíme, abychom viděli, obsahuje určitý filtr nebo pár dalších věcí, které tam také děláme. Ale jeden z nejcennějších a nejjednodušší je vysvětlit, obsahuje filtr? Stejně jako v tomto příkladu, který jsem právě uvedl, musí mít tato logovací tabulka, pokud ji chcete dotazovat, časové období, můžete na stránce tabulky určit, že nařídíte použití tohoto filtru časového období. Pokud se někdo pokusí spustit dotaz, který tento filtr neobsahuje, ve skutečnosti je zastaví velkým varováním a řekne: „Pravděpodobně byste do svého dotazu měli přidat nějaký SQL, který vypadá takto.“ Mohou pokračovat, pokud chtějí. Nechceme je ve skutečnosti úplně zakázat v používání - je to také dotaz, musí se na konci dne spouštět dotazy. Před nimi jsme ale položili docela velkou bariéru a my jim dáme návrh, konkrétní použitelný návrh na úpravu dotazu, aby se zlepšil jejich výkon.

V některých případech to také děláme automaticky, opět sledováním protokolu dotazů. Pokud uvidíme, že některé opravdu velké procento dotazů v této tabulce využívá určitého filtru nebo konkrétní klauzule o spojení, pak to ve skutečnosti vyskočíme. Povýšíme to na zásah. Ve skutečnosti se mi to stalo na interním souboru dat. Máme údaje o zákaznících a máme ID uživatele, ale ID uživatele je nastaveno, protože je to druh - máme ID uživatele u každého zákazníka. Není to jedinečné, takže jej musíte spárovat s ID klienta, abyste získali jedinečný klíč pro připojení. A psal jsem dotaz a pokusil jsem se něco analyzovat a vyskočil a řekl: „Hej, zdá se, že všichni ostatní spojují tyto tabulky s ID klienta i ID uživatele. Jste si jisti, že to nechcete dělat? “A ve skutečnosti mě to zastavilo v provádění nějaké nesprávné analýzy. Pracuje tak pro přesnost analýzy i pro výkon. Takže to je způsob, jak tento problém řešíme.

Rebecca Jozwiak: Zdá se mi, že to bude efektivní. Řekl jste, že nebudete nutně blokovat lidi ve zvládání zdrojů, ale jaksi je naučíte, že to, co dělají, nemusí být nejlepší, že?

David Crawford: Vždy předpokládáme, že uživatelé nejsou škodliví - dejte jim ty nejlepší záměry - a snažíme se být tak docela otevřeni.

Rebecca Jozwiak: Dobře. Zde je další otázka: „Jaký je rozdíl mezi správcem katalogů, jako u vašeho řešení, a nástrojem MDM? Nebo se ve skutečnosti spoléhá na jinou zásadu rozšířením výběru tabulek dotazů, zatímco MDM by to udělal automaticky, ale se stejným základním principem shromažďování metadat. “

David Crawford: Jo, myslím, že když se podívám na tradiční MDM řešení, primární rozdíl je filozofický. Je to všechno o tom, kdo je uživatel. Něco podobného, ​​jak jsem řekl na začátku své prezentace, Alation, myslím, že když jsme byli založeni, byli jsme založeni s cílem umožnit analytikům produkovat více poznatků, produkovat je rychleji, být přesnější v náhledech, že oni vyrobit. Nemyslím si, že to bylo někdy cílem tradičního řešení MDM. Tato řešení jsou obvykle zaměřena na lidi, kteří potřebují vytvářet zprávy o tom, jaká data byla shromážděna do SCC nebo interně pro nějaký jiný druh auditu. Někdy to může analytikům umožnit, ale častěji, pokud to umožní praktikovi v jejich práci, je pravděpodobnější, že povolí datového architekta, jako je DBA.

Když přemýšlíte o věcech z pohledu analytika, pak začnete vytvářet dotazovací nástroj, který by nástroj MDM nikdy neudělal. Tehdy začnete přemýšlet o výkonu a přesnosti a také o tom, jaká data se vztahují k mé obchodní potřebě. Když navrhujeme nástroj, všechny tyto věci jsou věci, které jsou v našich myslích popem. Vstoupí do našich vyhledávacích algoritmů, do rozvržení stránek katalogu a schopnosti přispět znalostmi z celé organizace. Jde o to, že jsme vytvořili dotazovací nástroj a že jsme do něj zabudovali katalog přímo, takže si myslím, že z toho opravdu vychází. Jakého uživatele máte na mysli jako první?

Rebecca Jozwiak: Dobře, dobře. To opravdu pomohlo vysvětlit. kdo chtěl umřít, aby se zmocnil archivů, protože musel odejít, ale opravdu chtěl, aby jeho otázka odpověděla. Řekl, že na začátku bylo zmíněno, že existuje více jazyků, ale je SQL jediným jazykem využívaným v komponentě Compose?

David Crawford: Ano, to je pravda. A jednou z věcí, které jsem si všiml, jak jsem byl svědkem exploze různých typů databází, databází dokumentů, grafických databází, úložišť klíčové hodnoty, je to, že jsou skutečně výkonné pro vývoj aplikací. Tam mohou sloužit konkrétním potřebám opravdu dobře, lépe než relační databáze.

Ale když se vrátíte zpět k analýze dat, když se vrátíte zpět - když chcete poskytnout tyto informace lidem, kteří se chystají udělat ad hoc reporting nebo ad hoc kopání do dat, že se vždy vrátí k relačnímu alespoň rozhraní pro lidi. Část toho je jen proto, že SQL je lingua franca analýzy dat, takže to znamená, pro lidi, také pro nástroje, které se integrují. Myslím, že to je důvod, proč je SQL na Hadoop tak populární a existuje tolik pokusů o jeho vyřešení, protože na konci dne to lidé vědí. Pravděpodobně existují miliony lidí, kteří vědí, jak psát SQL, a já bych se odvážil ne miliony, kteří by věděli, jak napsat dotazovací rámec agregačního potrubí Mongo. A že se jedná o standardní jazyk, který se používá pro integraci do opravdu široké škály platforem. Takže vše, co říká, jsme velmi zřídka žádáni, abychom se z toho dostali, protože toto je rozhraní, které většina analytiků používá, a je to místo, kde jsme se zaměřili, zejména v Compose, na to, že jsme se zaměřili na psaní SQL.

Řekl bych, že věda o údajích je místem, kde se pustí mimo většinu, a proto dostáváme příležitostné otázky týkající se používání Pig nebo SAS. To jsou věci, které v Compose rozhodně nezvládneme a které bychom chtěli zachytit v katalogu. A vidím také R a Pythona. Máme několik způsobů, jak jsme vytvořili rozhraní, které můžete použít dotazy psané v Alation uvnitř skriptů R a Python, takže od chvíle, kdy jste vědcem dat a pracujete ve skriptovacím jazyce, zdrojová data jsou v relační databázi. Začínáte s dotazem SQL a poté je dále zpracujete a vytvoříte grafy uvnitř R a Pythonu. A vytvořili jsme balíčky, které můžete importovat do těch skriptů, které vyvolávají dotazy nebo výsledky dotazů z Alation, takže tam můžete mít jakýsi smíšený pracovní postup.

Rebecca Jozwiak: Dobře, skvělé. Vím, že jsme utíkali trochu za hodinu, jen si položím jednu nebo dvě další otázky. Vím, že jste mluvili o všech různých systémech, ke kterým se můžete připojit, ale pokud jde o externě hostovaná data a interně hostovaná data, lze je společně prohledat do jediného pohledu, do jedné platformy?

David Crawford: Jasně. Existuje několik způsobů, jak toho dosáhnout. Myslím, navenek hostovaný, představoval bych si, snažím se přemýšlet o tom, co přesně to může znamenat. Mohlo by to znamenat databázi, kterou pro vás někdo hostuje v AWS. Mohlo by to znamenat veřejný zdroj dat z data.gov. Připojujeme se přímo k databázím tím, že se přihlašujeme stejně jako jiná aplikace pomocí účtu s databázemi, a takto extrahujeme metadata. Pokud tedy máme účet a máme otevřený síťový port, můžeme se k němu dostat. A pak, když tyto věci nemáme, máme něco, co se nazývá virtuální zdroj dat, který vám umožňuje v zásadě tlačit dokumentaci, ať už automaticky, napsáním vlastního konektoru nebo jeho vyplněním provedením, jako je například nahrávání CSV, dokumentovat data vedle vašich interních dat. Tím se vše dostane do vyhledávače. Stává se referenčním uvnitř článků a další dokumentace a konverzací uvnitř systému. Takto se vypořádáme, když se nemůžeme přímo připojit k systému.

Rebecca Jozwiak: Dobře, to dává smysl. Zastřelím ti ještě jednu otázku. Jeden účastník je zeptat se: „Jak by měl být obsah datového katalogu ověřován, ověřován nebo udržován, protože zdrojová data se aktualizují, jak se mění zdrojová data atd.“

David Crawford: Jo, je to otázka, kterou dostáváme, a myslím si, že jedna z věcí, kterou my - jedna z našich filozofií, jak jsem řekl, nevěříme, že uživatelé jsou škodliví. Předpokládáme, že se snaží přispět nejlepšími znalostmi. Nepřijdou a úmyslně neuvádějí lidi o datech. Pokud je to problém ve vaší organizaci, možná není Alation tím správným nástrojem. Ale pokud předpokládáte dobré úmysly uživatelů, pak o tom přemýšlíme jako o něčem, kam přicházejí aktualizace, a pak obvykle uděláme správce, který má na starosti každý datový objekt nebo každou část dat. A můžeme informovat ty správce, když jsou provedeny změny v metadatech a oni to zvládnou tímto způsobem. Vidí aktualizace přicházejí, ověřují je. Pokud nemají pravdu, mohou se vrátit a upravit je a informovat, a doufejme, že dokonce osloví uživatele, který informace poskytl, a pomohl jim učit se.

To je tedy primární způsob, jak o tom přemýšlet. Tento druh doporučení davu a vedení ze strany správců, takže máme kolem toho nějaké schopnosti.

Rebecca Jozwiak: Dobře, dobře. A pokud byste mohli jen dát lidem vědět, jak mohou nejlépe začít s Alation, a kam mohou jít konkrétně, aby získali více informací. Vím, že jste to sdíleli jeden bit.ly. Je to nejlepší místo?

David Crawford: Alation.com/learnmore Myslím, že je skvělý způsob, jak jít. Chcete-li se zaregistrovat na ukázku, web Alation.com má spoustu skvělých zdrojů, bílé knihy pro zákazníky a zprávy o našem řešení. Takže si myslím, že je skvělé začít. Můžete také poslat e-mail.

Rebecca Jozwiak: Dobře, skvělé. A já vím, účastníci, omlouvám se, kdybych se dnes nedostal ke všem otázkám, ale pokud ne, budou předány Davidovi nebo jeho prodejnímu týmu nebo někomu z Alation, aby mohli určitě pomoci odpovědět na vaše otázky a porozumět jim co Alation dělá nebo co umí nejlépe.

A s tím, lidi, jdu do toho a podepíšu nás. Archivy můžete vždy najít na InsideAnalysis.com. Najdete ji také na Techopedia.com. Mají tendenci se aktualizovat o něco rychleji, takže si to určitě ověřte. A děkuji Davidovi Crawfordovi, Dez Blanchfieldovi a Robin Boor dnes. Bylo to skvělé webové vysílání. A s tím se rozloučím. Díky, lidi. Ahoj.

David Crawford: Děkuji.

Síla návrhu: jak datový katalog zmocňuje analytiky