Od zaměstnanců Techopedia, 24. února 2016
Take away : Host Rebecca Jozwiak diskutuje o analytice streamování s předními odborníky v oboru.
Momentálně nejste přihlášeni. Chcete-li zobrazit video, přihlaste se nebo se zaregistrujte.
Rebecca Jozwiak: Dámy a pánové, ahoj a vítejte v Hot Technologies roku 2016! Dnešní název zní „Využití Firehose: získávání obchodní hodnoty pomocí Streaming Analytics.“ Toto je Rebecca Jozwiak. Jsem druhým velitelem hostitele webového vysílání, kdykoli tady nemůže být náš milý Eric Kavanagh, takže je příjemné vidět dneska tolik z vás.
Tato epizoda se trochu liší od našich ostatních. Mluvili jsme o tom, co je horké a tento rok je samozřejmě horko. Posledních několik let bylo horkých. Vždycky přicházejí nové věci. Dnes mluvíme o streamování analytiků. Analytika streamování je sama o sobě něco nového. Streamování, středová data, data RFID samozřejmě nemusí být nutně nová. Ale v souvislosti s datovými architekturami jsme se po celá desetiletí soustředili na data v klidu. Databáze, souborové systémy, datové úložiště - vše za účelem převážně dávkového zpracování. Ale nyní, s posunem vytvářet hodnotu ze streamovaných dat, datových emocí, někteří to nazývají žijícími proudy, skutečně vyžadují architekturu založenou na streamování, nikoli data v klidových architekturách, na které jsme byli zvyklí, a musí být schopen zpracování rychlého požití, zpracování v reálném čase nebo téměř v reálném čase. Musí být schopna zajistit nejen internet věcí, ale internet všeho.
V ideálním případě by samozřejmě bylo hezké mít obě architektury vedle sebe, jednu ruku mýt druhou, abych tak řekl. Zatímco data stará, data stará několik týdnů, data stará stále mají hodnotu, historickou analýzu, analýzu trendů, živá inteligence v dnešní době jsou to živá data, a proto je analytika streamování tak důležitá.
Dnes o tom mluvím víc. Máme datového vědce Dez Blanchfielda, který volá z Austrálie. Právě pro něj je brzy ráno. Máme našeho hlavního analytika, Dr. Robina Bloora. Připojili jsme se k Anand Venugopal, produktové hlavě pro StreamAnalytix ve společnosti Impetus Technologies. Skutečně se zaměřují na analytické aspekty tohoto prostoru.
S tím jdu do toho a předám to Dezovi.
Dez Blanchfield: Děkuji. Musím tady chytit ovládání obrazovky a vyskočit dopředu.
Rebecca Jozwiak: Tady máš.
Dez Blanchfield: Zatímco bereme snímky nahoru, dovolte mi, abych se zabýval jen hlavním tématem.
Chci to udržet na poměrně vysoké úrovni a nechám to zhruba 10 minut. Toto je velmi velké téma. Zúčastnil jsem se události, kde jsme strávili dva až tři dny potápěním do podrobností o tom, co je zpracování toků a současných rámcích, které vyvíjíme, a co by mělo znamenat analytické zpracování v těchto objemových proudech.
Chceme jen objasnit, co tím myslíme, streamováním analytik a poté se ponořit do toho, zda lze obchodní hodnotu odvodit, protože to je to, co podniky skutečně hledají. Hledají lidi, kteří jim vysvětlují velmi rychle a stručně, kde mohu odvodit hodnotu použitím nějaké formy analytiky na naše datové proudy?
Co je to streamovací analytika?
Analytika datových proudů poskytuje organizacím způsob, jak extrahovat hodnotu z velkoobjemových a vysokorychlostních dat, která podnikům procházejí, v různých formách v pohybu. Významný rozdíl je v tom, že jsme měli dlouhou historii vývoje analytiků a objektivů a pohledů na data, která jsme zpracovávali v klidu po celá desetiletí od doby, kdy byl vynalezen mainframe. Masivní posun paradigmatu, který jsme viděli v posledních třech až pěti letech u toho, čemu říkáme „webové měřítko“, je napojení na toky dat přicházejících do nás v reálném čase nebo téměř v reálném čase a nejen zpracování a hledání korelace událostí nebo událost se spouští, ale provádí skutečně podrobnou a podrobnou analýzu těchto toků. Je to významný posun k tomu, co jsme dříve dělali, a to buď sbírání dat, jejich vkládání do jakéhokoli úložiště, tradičně velké databáze, velké velké datové rámce, jako je platforma Hadoop a provádění dávkového režimu, a získávání nějaký pohled.
Máme to velmi dobře, když to dokážeme velmi rychle a zkoušíme spoustu těžkého železa, ale stále opravdu zachycujeme data, ukládáme a poté se na ně díváme a získáváme k nim nějaké poznatky nebo analýzy. Posun k provádění těchto analytiků, když se data streamují, byl velmi novou a vzrušující oblastí růstu pro typy věcí, které se dějí kolem velkých dat. Vyžaduje zcela odlišný přístup k zachycení, uložení a zpracování a provádění analytických analýz.
Jedním z klíčových faktorů pro posun a zaměření na provádění analýzy ve streamu je to, že můžete získat významnou obchodní hodnotu tím, že získáváte tyto poznatky rychleji a snadněji, jak data přicházejí k vám, protože informace jsou poskytovány podnikům. Myšlenka provádět zpracování na konci dne již není v některých průmyslových odvětvích relevantní. Chceme být schopni provádět analytiku za chodu. Na konci dne už víme, co se stalo, protože se to stalo, spíše než se dostat na konec dne a dělat 24hodinovou dávkovou práci a získávat tyto poznatky.
Analytika datových proudů je o klepnutí přímo do tohoto proudu, zatímco datové proudy jsou obvykle vícenásobné datové toky velmi velkých objemů dat a dat přicházejících k nám v pohybu velmi, velmi rychle a získávání poznatků nebo analytik o těchto proudech, když k nám přicházejí na rozdíl k tomu, že to vyjde v klidu a provádí na nich analýzy.
Jak jsem zmínil, měli jsme desetiletí a desetiletí provádění toho, čemu říkám dávková analytika. Dal jsem zde opravdu skvělý obrázek. Toto je obrázek gentlemana stojícího před zesměšňovaným počítačem, který vytvořila společnost RAND Corporation před celým životem, a tak vypadali jako počítač v domě. Zajímavé je, že i tehdy měli tento koncept všech těchto malých číselníků a tyto číselníky představovaly informace přicházející z domu a zpracovávané v reálném čase a sdělující vám, co se děje. Jednoduchým příkladem je sada barometrického tlaku a teploty, kterou můžeme vidět, kde vidíme, co se děje v reálném čase. Ale představuji si, že i tehdy, když společnost RAND Corporation dala dohromady ten malý vzor, ve skutečnosti přemýšleli o zpracování dat a provádění analytických analýz, protože přicházejí ve formátu datových proudů. Nejsem si úplně jistý, proč do počítače vložili volant, ale to je docela v pohodě.
Od vynálezu tiskárny jsme měli pohled na sběr dat a provádění dávkové analýzy. Jak jsem již řekl s velkým posunem a viděli jsme to od hráčů z webového měřítka, které všichni známe, jsou to všechny značky domácnosti, jako jsou Twitter, Facebook a LinkedIn, to interaktivní chování, které máme s těmi sociálními Platformy nevyžadují pouze sběr, ukládání a zpracování v dávkovém režimu, ale ve skutečnosti zachycují a řídí analytiku za chodu z proudů dat. Když něco pípám, nejenže je musí zachytit a uložit a něco udělat později, ale také musí být schopni dát jej okamžitě zpět do mého proudu a sdílet je s ostatními lidmi, kteří mě sledují. To je model dávkového zpracování.
Proč bychom měli jít touto cestou? Proč by organizace investovaly čas, úsilí a peníze, dokonce i když zvažovaly výzvu snažit se cestou analytiků proudu? Organizace mají tuto obrovskou touhu získat výkonový zisk oproti svým konkurentům v průmyslových odvětvích, ve kterých se nacházejí, a že tento výkon lze rychle implementovat pomocí jednoduché analytické analýzy proudu a může začít jednoduchým sledováním dat v reálném čase, která již jsme obeznámeni s. Tam jsem dostal malý screenshot Google Analytics. Pravděpodobně je to poprvé, kdy jsme skutečně získali praktickou analytiku pro spotřebitele. Takže když lidé navštívili váš web a vy se vám tyto počty zásahů počítají, s malým kouskem JavaScriptu ve spodní části webové stránky v HTML vloženým na vašem webu byly tyto malé kódy vytvářeny v reálném čase zpět na Google a byly provádíme analýzu těch toků dat přicházejících ze všech stránek na vašem webu, z každého objektu na vašem webu v reálném čase a odešlou vám je zpět na této opravdu roztomilé webové stránce v řídicím panelu grafu v reálném čase, roztomilých histogramech a Čárový graf ukazující X počet lidí, kteří historicky zasáhli vaši stránku, ale tady je kolik jich právě teď je.
Jak vidíte na tomto snímku obrazovky, právě teď je uvedeno 25. To je 25 lidí právě v době, kdy byl na této stránce snímek obrazovky. To je první skutečná šance, kterou jsme hráli na analytickém nástroji pro spotřebitele. Myslím, že to hodně lidí opravdu pochopilo. Prostě pochopili sílu vědět, co se děje a jak na to mohou reagovat. Když přemýšlíme o rozsahu avioniky, letících kolem, je v USA pouze 18 700 domácích letů denně. Před nějakou dobou jsem četl referát - to bylo asi před šesti nebo sedmi lety - že množství dat, která tyto letouny vyráběly, bylo ve starém strojírenském modelu asi 200 až 300 megabajtů. V dnešních konstrukcích letadel tato letadla produkují asi 500 gigabajtů dat nebo asi půl terabajtu dat za let.
Když matematiku děláte velmi rychle z hlavy, že 18 700 tuzemských letů každých 24 hodin pouze v americkém vzdušném prostoru, pokud všechna moderní letadla produkují asi půl terabajtu, to je 43 až 44 petabajtů dat procházejících a Děje se to, když jsou letadla ve vzduchu. Stává se to, když přistávají a dělají výpisy dat. To je, když jdou do obchodu a mají kompletní výpis dat od technických týmů, aby se podívali na to, co se děje v ložiscích, kolech a uvnitř motorů. Některá z těchto dat musí být zpracována v reálném čase, aby se mohli rozhodnout, zda existuje skutečný problém, když bylo letadlo ve vzduchu nebo když je na zemi. To prostě nemůžete udělat v dávkovém režimu. V jiných odvětvích, která tam vidíme kolem financí, zdravotnictví, výroby a strojírenství, se také dívají na to, jak se mohou tímto novým pohledem na to, co se děje v reálném čase, na rozdíl od toho, co se právě ukládá do databází na období.
Existuje také tato koncepce zacházení s údaji jako s tím, co nazývám rychle se kazícím statkem nebo rychle se kazící komoditou - že mnoho dat v průběhu času ztrácí hodnotu. To je stále více v případě mobilních aplikací a nástrojů sociálních médií, protože to, na co lidé říkají a co nyní trendy, je to, na co chcete reagovat. Když přemýšlíte o jiných částech našeho života s logistikou a přepravou potravin v okolí, chápeme pojem zboží podléhající zkáze v tomto smyslu. Ale přemýšlejte o datech, která prochází vaší organizací, ao hodnotě, kterou má. Pokud s vámi někdo právě teď obchoduje a vy s nimi můžete komunikovat v reálném čase, nechcete čekat ani hodinu, aby mohla být data zachycena a vložena do systému, jako je Hadoop, a poté stiskněte toto tlačítko, to teď nebudeme schopni vyřešit a chcete to udělat okamžitě na žádost klienta. Je zde termín, který uvidíte, když se lidé hodně bavili o tom, že mají tento datový proud v reálném čase, který vám může poskytnout personalizaci, a tuto personalizační melodii v systému, který používáte, podle vašich individuálních zkušeností. Když například narazíte na nástroj, jako je například vyhledávací nástroj Google, pokud udělám dotaz a uděláte stejný dotaz, nemůžeme získat vždy stejná data. Dostáváme v podstatě to, co nazývám celebritou. Zachází mi jednorázově. Mám vlastní osobní verzi toho, co se v těchto systémech děje, na základě profilů a dat, které na mě shromáždili, a byl jsem schopen provádět analytiku v reálném čase ve streamu.
Tato myšlenka, že data jsou rychle se kazící komoditou, je prozatím skutečnou věcí a hodnota dat, která se v průběhu času snižují, je něco, s čím se musíme dnes vypořádat. Není to včerejší věc. Líbí se mi tento obrázek medvěda, který popadl lososa, který vyskočil z řeky, protože to opravdu maloval přesně to, co vidím streamovanou analytiku. Je to ta masivní řeka dat, která se k nám blíží, pokud je to možné, oheň a medvěd sedí uprostřed potoka. Bude provádět analytiku v reálném čase o tom, co se kolem ní děje, takže dokáže skutečně připravit svou schopnost zachytit ryby ve vzduchu. Není to jako jen ponořit se do proudu a chytit ho. Tato věc skočí do vzduchu a musí být na správném místě v pravý čas, aby chytila tu rybu. Jinak nedostane snídani ani oběd.
Organizace chce se svými daty dělat totéž. Chtějí extrahovat hodnotu z dnešních obrovských objemů dat v pohybu. Chtějí provádět analýzu těchto dat a dat o vysoké rychlosti, takže to není jen množství dat, které k nám přichází, ale je to rychlost, s jakou z toho přichází. Například v zabezpečení jsou to všechny vaše směrovače, přepínače, servery, firewally a všechny události, které přicházejí od těchto a desítek tisíc, ne-li stovky tisíc zařízení, v některých případech jde o data podléhající zkáze. Když o tom přemýšlíme v internetu věcí a průmyslovém internetu, mluvíme o milionech, ne-li o miliardách senzorů, a protože data přicházejí skrz které provádí analytiku, nyní se zabýváme zpracováním komplexních událostí na řádech velikosti a rychlosti, které jsme nikdy předtím neviděli, a musíme se s tím vypořádat dnes. Okolo toho musíme stavět nástroje a systémy. Je to skutečná výzva pro organizace, protože na jedné straně máme velmi velké značky, které dělají kutily, péct si to sami, když mají schopnost to udělat, dovednosti a inženýrství. Ale u průměrné organizace tomu tak není. Nemají sady dovedností. Nemají kapacitu ani čas ani peníze na to, aby na to přišli. Všichni se zaměřují na tento koncept rozhodování v reálném čase.
Použijte případy, s nimiž jsem se setkal, a vyskytují se v každém širokém spektru každého odvětví, které si dokážete představit. Lidé sedí a věnují pozornost a říkají: Jak aplikujeme některé analytické údaje na naše datové proudy? Mluvíme o online službách online. Existují tradiční platformy sociálních médií a online e-tailing a maloobchod - například aplikace. Všichni se snaží nám poskytnout tuto celebritu v reálném čase. Když se ale dostaneme k dalším technologiím, telefonním službám, hlasu a videu, vidím lidi, kteří chodí po telefonu FaceTime. Je to jen vybuchující. Vadí mi to, že lidé drží telefon před nimi a povídají si s videozáznamem přítele, na rozdíl od toho, aby jej drželi u ucha. Ale oni vědí, že to dokážou a přizpůsobili se a měli tuto zkušenost rádi. Vývoj těchto aplikací a platforem, které tyto aplikace poskytují, musí provádět analytiku v reálném čase na tomto provozu a na profilech provozu, aby mohly dělat jednoduché věci, jako je směrování tohoto videa, dokonale tak, aby kvalita hlasu v video, které získáte, je dostatečné pro získání dobrého zážitku. Nemůžete dávkové zpracování tohoto druhu dat. To by z videostreamu v reálném čase nestalo funkční službu.
Ve finančních transakcích je výzva pro správu. Není v pořádku dostat se na konec dne a zjistit, že jste porušil zákon a přesouval soukromá data po místě. V Austrálii máme velmi zajímavou výzvu, kdy přesun dat o ochraně osobních údajů na moři je ne-ne. Nemůžete si vzít můj PID, moje osobní osobní identifikační údaje, na moři. V Austrálii existují zákony, které tomu brání. Poskytovatelé finančních služeb, zejména vládních služeb a agentur, musí se mnou dělat analytiku v reálném čase na svých proudech dat a pokyny, aby se ujistili, že to, co mi poskytují, neopustí břehy. Všechny věci musí zůstat na místě. Musí to udělat v reálném čase. Nemohou porušit zákon a později požádat o odpuštění. Detekce podvodů - je to docela zřejmé, že se o transakcích s kreditními kartami dozvíme. Ale protože se typy transakcí, které provádíme ve finančních službách, mění velmi, velmi rychle, existují různé věci, které PayPal dělá hned teď, aby odhalil podvod v reálném čase, kdy se peníze nepohybují z jedné věci na druhou, ale jsou to finanční transakce mezi systémy. Ebay nabízení platforem, odhalování podvodů musí být provedeno v reálném čase v streamovací kanceláři.
V současné době existuje trend přechodu k provádění extrakce a transformace zátěžové aktivity v proudech, takže nechceme zachytit nic, co bude do proudu. To opravdu nemůžeme udělat. Lidé se dozvěděli, že data se velmi rychle zlomí, pokud vše zachytíme. Trik nyní spočívá v tom, že v těchto proudech provádíme analytiku a provádíme ETL a jen zachycujeme to, co potřebujete, potenciálně metadata, a pak nasměrujete prediktivní analýzu, kde můžeme skutečně říci, co se bude dít o něco dále dolů po cestách na tom, co Právě jsem viděl ve streamu na základě analýzy, kterou jsme na tom provedli.
Poskytovatelé energie a poskytovatelů služeb zažívají tuto obrovskou touhu spotřebitelů po stanovení ceny poptávky. Mohl bych se rozhodnout, že chci koupit zelenou energii v určitou konkrétní denní dobu, protože jsem jen doma sám a nepoužívám mnoho zařízení. Ale pokud budu mít večerní párty, možná budu chtít mít všechna svá zařízení zapnutá a nechci kupovat levnou energii a čekat na její doručení, ale ochotný zaplatit další náklady, aby ji získal. Tato cena poptávky, zejména v oblasti veřejných služeb a energetického prostoru, se již stala. Například Uber je klasický příklad věcí, které můžete dělat každý den, a to vše na základě ceny poptávky. Existuje několik klasických příkladů, jak v Austrálii dostávají letenky 10 000 dolarů kvůli masivní poptávce na Silvestra. Jsem si jistý, že se tímto problémem zabývali, ale analytika streamů byla prováděna v reálném čase, zatímco v autě vám řekla, kolik bych měla platit.
Internet věcí a proudy senzorů - povrch jsme na to jen poškrábali a skutečně jsme si právě prošli základní konverzaci, ale uvidíme zajímavý posun v tom, jak se s tím technologie vypořádá, protože když nemluvíte jen asi tisíce nebo desítky tisíc, ale stovky tisíc a potenciálně miliardy zařízení streamovaných k vám, téměř žádný technologický zásobník, který máme nyní, není zkonstruován, aby se s tím vypořádal.
Existuje několik opravdu žhavých témat, které uvidíme po celém místě, jako je bezpečnost a počítačové riziko. Jsou to pro nás velmi skutečné výzvy. Na webu je opravdu úhledný nástroj zvaný North, kde můžete na webové stránce sedět a sledovat různé kybernetické útoky v reálném čase. Když se na to podíváte, myslíte si, že „je to hezká roztomilá malá webová stránka“, ale asi po pěti minutách si uvědomíte objem dat, který systém provádí analyticky na všech různých proudech všech různých zařízení po celém světě které jsou do nich přiváděny. Začíná to vadit tomu, jak to na hraně záznamu v podstatě provádějí, a poskytuje vám tak jednoduchou malou obrazovku, která vám řekne, na co nebo na co útočí v reálném čase a jaké typy útoků. Je to však opravdu úhledný způsob, jak získat dobrý vkus o tom, co pro vás může analytika streamů udělat v reálném čase. Stačí jen sledovat tuto stránku a získat pocit jen objemu a výzvy, jak vzít toky, zpracovat analytické dotazy na a reprezentovat to v reálném čase.
Myslím, že rozhovor, který vedu po zbytek zasedání, se z mého pohledu zaměří na všechny tyto věci s jedním zajímavým pohledem, a to je výzva pro kutily, péct si to, vyhovuje některým klasické jednorožce, kteří si mohou dovolit stavět tyto typy věcí. Mají miliardy dolarů na vybudování těchto inženýrských týmů a vybudování svých datových center. Ale pro 99, 9% tamních organizací, které chtějí ve své činnosti využívat analytiku streamů, musí mít k dispozici službu off-the-shelf. Potřebují si koupit produkt po vybalení z krabice a obvykle potřebují poradenské služby a profesionální služby, které jim pomohou s implementací a získají tuto hodnotu zpět v podnikání a prodají ji zpět jako pracovní řešení.
S tím se vám vrátím, Rebecco, protože věřím, že právě teď se chystáme podrobně pokrýt.
Rebecca Jozwiak: Výborně. Mockrát vám děkuji, Dez. To je skvělá prezentace.
Nyní předám míč Robinovi. Vzít to pryč.
Robin Bloor: Dobře. Protože se Dez dostal do nitrého štěrku zpracování toků, zdálo se mi, že nemá smysl, abych ho znovu zakryl. Takže se budu chovat úplně strategicky. Podíváme-li se téměř z velmi vysoké úrovně dolů na to, co se sakra děje, a umísťujeme ji, protože si myslím, že by to mohlo pomoci lidem, zejména nám lidem, kteří nebyli v táboře zpracovávajících toky ve velké hloubce předtím.
Zpracování toků existuje již dlouhou dobu. Říkali jsme tomu CEP. Před tím existovaly systémy v reálném čase. Původní systémy řízení procesů ve skutečnosti zpracovávaly toky informací - samozřejmě se nic nestalo tak daleko, jak je tomu dnes. Tento obrázek, který vidíte na snímku zde; ve skutečnosti to ukazuje na spoustu věcí, ale ukazuje to nad a za cokoli jiného - skutečnost, že zde existuje spektrum latencí, které se zde objevují v různých barvách. Co se vlastně stalo od vynálezu počítačů nebo komerčních počítačů, které dorazilo právě kolem roku 1960, je to, že se vše rychle a rychle zrychlilo. Kdysi jsme byli závislí na tom, jak to ve skutečnosti vyšlo, pokud se vám líbí ve vlnách, protože to je to, jak to vypadá. To ve skutečnosti záleží. Protože to všechno bylo řízeno Mooreovým zákonem a Mooreův zákon by nám dal faktor asi desetkrát rychleji po dobu asi šesti let. Poté, co jsme se vlastně dostali do roku 2013, se to všechno rozpadlo a najednou jsme začali zrychlovat rychlostí, jakou jsme nikdy nikdy, což je podivně bezprecedentní. Dostali jsme faktor asi deset, pokud jde o zvýšení rychlosti, a proto snížení latence asi každých šest let. Za šest let od roku 2010 máme násobek nejméně tisíc. Tři řády spíše než jeden.
To se děje a proto se zdá, že se průmysl tak či onak pohybuje fantastickou rychlostí - protože to je. Právě prochází smyslem této konkrétní grafiky, jsou doby odezvy skutečně mimochodem v algoritmickém měřítku dolů po svislé ose. Reálný čas je rychlost počítače, rychlejší než lidské bytosti. Interaktivní časy jsou oranžové. Právě v okamžiku, kdy komunikujete s počítačem, chcete opravdu desetinu až jednu sekundu latence. Nahoře je transakce, kde ve skutečnosti přemýšlíme o tom, co děláte v počítači, ale pokud to vyjde asi za patnáct sekund, stane se to nesnesitelným. Lidé by prostě na počítač nečekali. Všechno bylo provedeno dávkově. Spousta věcí, které byly provedeny v dávce, nyní klesá přímo do transakčního prostoru, přímo do interaktivního prostoru nebo dokonce do prostoru v reálném čase. Zatímco dříve jsme zvlnění s velmi malým množstvím dat mohli udělat něco z toho, nyní můžeme dělat s velmi velkým množstvím dat pomocí nesmírně škálovaného prostředí.
Takže v podstatě všechny tyto skutečnosti jsou skutečně transakcí a interaktivní dobou lidské reakce. Strašně mnoho toho, co se právě děje s proudy, je informovat lidi o věcech. Něco z toho jde rychleji a to dobře informuje věci, takže je čas v reálném čase. Poté si vezmeme licenci, která prostě spadne jako kámen, což umožňuje okamžitou analytiku proveditelnou a mimochodem docela dostupnou. Není to jen rychlost klesla a vrchol se právě zhroutil. Pravděpodobně největší dopad ve všech z nich na všechny různé aplikace, můžete provést všechny tyto prediktivní analýzy. Za minutu ti řeknu proč.
Toto je pouze železářství. Máte paralelní software. Mluvíme v roce 2004. Škálovaná architektura, vícejádrové čipy, zvýšení paměti, konfigurovatelný procesor. SSD nyní jde mnohem rychleji než rotující disk. Docela se můžete rozloučit s rotujícím diskem. SSD jsou také ve více jádrech, takže opět rychleji a rychleji. Brzy se objeví, máme pamětníka od HP. Máme 3D XPoint od Intel a Micron. Slibem těch je, že to všechno stejně zrychlí a zrychlí. Když vlastně přemýšlíte o dvou nových paměťových technologiích, z nichž každá vytvoří celý základní malý kus, jednotlivé desky s obvody jdou rychleji, ještě jsme to neviděli.
Technologie streamů, která je ve skutečnosti další zprávou, je tu, aby zůstala. Musí existovat nová architektura. Myslím, že Dez se o tom v několika bodech své prezentace zmínil. Po celá desetiletí jsme viděli architekturu jako kombinaci datových haldy a datových trubek. Měli jsme tendenci zpracovávat hromady a měli jsme tendenci spojovat data mezi haldy. Nyní se zásadně posuneme směrem k tomu, čemu říkáme datová architektura Lambda, která kombinuje zpracování datových toků s datovými haldy. Když ve skutečnosti zpracováváte proud událostí přicházejících proti historickým datům jako datový tok nebo datová hromada, myslím tím architekturou Lambda. To je v plenkách. Je to jen část obrázku. Pokud považujete něco tak komplexního jako Internet všeho, o čemž se také zmínil Dez, uvědomíte si, že existují nejrůznější problémy s umístěním dat - rozhodnutí o tom, co byste měli ve streamu zpracovat.
Věc, kterou zde opravdu říkám, je, že když jsme zpracovávali v dávce, vlastně jsme zpracovávali toky. Nemohli jsme to udělat jeden po druhém. Jen počkáme, až bude velká hromada věcí, a pak to všechno zpracujeme najednou. Přecházíme do situace, kdy můžeme ve streamu zpracovat věci. Pokud dokážeme zpracovat údaje ve streamu, pak budou datové hromady, které držíme, statickými daty, na která musíme odkazovat, abychom mohli zpracovat data ve streamu.
Tím se dostáváme k této konkrétní věci. Už jsem se o tom zmínil v nějaké prezentaci s biologickou analogií. Způsob, jakým bych chtěl, abys o tom přemýšlel, je v současné době jsme lidské bytosti. Máme tři odlišné sítě pro prediktivní zpracování v reálném čase. Říká se jim somatický, autonomní a enterický. Enterické je žaludek. Autonomní nervový systém se stará o boj a lety. Ve skutečnosti se stará o rychlé reakce na životní prostředí. Somatika, která se stará o pohyb těla. To jsou systémy v reálném čase. Zajímavé na tom - nebo si myslím, že je to trochu zajímavé - je to hodně prediktivní, než byste si kdy dokázali představit. Je to, jako by se ve skutečnosti díváte na obrazovku asi 18 palců od obličeje. Vše, co můžete jasně vidět, vše, co vaše tělo dokáže jasně vidět, je ve skutečnosti o obdélníku 8 × 10. Všechno mimo to je ve skutečnosti rozmazané, pokud jde o vaše tělo, ale vaše mysl ve skutečnosti vyplňuje mezery a není rozmazaná. Nevidíte rozmazání vůbec. Vidíte to jasně. Vaše mysl vlastně dělá prediktivní metodu datového proudu, abyste viděli tuto jasnost. Je to něco zvláštního, ale ve skutečnosti se můžete podívat na to, jak nervový systém funguje a na způsob, kterým se dokážeme obejít a chovat se přiměřeně - alespoň někteří z nás - rozumně zdvořile a nepřetržitě narážet na věci.
Je to všechno provedeno řadou neuronových analytických měřítek uvnitř. Stane se, že organizace budou mít stejný druh věcí a budou si budovat stejný druh věcí a bude to zpracování toků včetně vnitřních toků organizace - věci, které se dějí uvnitř to, co se děje mimo něj, okamžité reakce, které musí být skutečně provedeny, samozřejmě živí člověka, aby se rozhodl, aby se to všechno stalo. To je místo, kam jdeme, pokud vidím.
Jedna z věcí, která je důsledkem toho je, že úroveň aplikace pro streamování jde dobře. Bude tu mnohem víc než teď. Právě teď volíme nízko visící ovoce, které dělá věci, které jsou zřejmé.
Takže to je závěr tady. Analytika streamování je jednou mezerou, ale stává se hlavním proudem a brzy bude obecně přijata.
S tím to předám zpět Rebecce.
Rebecca Jozwiak: Děkuji moc, Robine. Skvělá prezentace jako obvykle.
Anand, jsi nahoře. Podlaha je vaše.
Anand Venugopal: Fantastický. Děkuji.
Jmenuji se Anand Venugopal a jsem vedoucím produktu StreamAnalytix. Je to produkt nabízený společností Impetus Technologies z Los Gatos v Kalifornii.
Společnost Impetus má ve skutečnosti velkou historii v tom, že se stala velkým poskytovatelem datových řešení pro velké podniky. Takže jsme skutečně provedli řadu implementací analytických datových proudů jako společnost poskytující služby a naučili jsme se spoustu lekcí. V posledních několika letech jsme se také posunuli k tomu, abychom se v posledních letech stali produktovou společností a společností zaměřenou na řešení a analýza toku dat směřuje k přeměně Impetusu na společnost zaměřenou převážně na produkty. Existují některá kritická, velmi, velmi klíčová aktiva, která Impetus zúčtoval díky naší expozici vůči podnikům, a StreamAnalytix je jedním z nich.
Jsme dvacet let v oboru a existuje skvělá kombinace produktů a služeb, díky nimž máme obrovskou výhodu. A StreamAnalytix se zrodil ze všech zkušeností získaných z našich prvních pěti nebo šesti implementací streamování.
Dotknu se několika věcí, ale analytici, Dez a Robin, odvedli skvělou práci na pokrytí celého prostoru, takže přeskočím spoustu obsahu, který se překrývá. Asi půjdu rychle. Vidíme kromě skutečných případů streamování využívajících hodně spravedlivého zrychlení v dávkách, kde v podnicích existují doslova velmi, velmi důležité dávkové procesy. Jak vidíte, celý tento cyklus snímání událostí a jejich analýzy a jednání s nimi může ve velkých podnicích trvat týdny a všichni se to snaží zmenšit na minuty a někdy i sekundy a milisekundy. Takže cokoli rychlejšího než všechny tyto dávkové procesy jsou kandidáty na obchodní akvizici a to je velmi dobře řečeno, že hodnota dat dramaticky klesá s jeho věkem, takže čím větší hodnota je v počáteční části v sekundách, tak se to právě stalo. V ideálním případě, pokud byste mohli předvídat, co se stane, je to nejvyšší hodnota. To však záleží na přesnosti. Další nejvyšší hodnota je, když je právě tam, když se to děje, můžete ji analyzovat a reagovat. Hodnota samozřejmě poté dramaticky klesá, hlavní restriktivní BI, ve kterém jsme.
To je zajímavé. Můžete očekávat nějakou dramaticky vědeckou odpověď na otázku, proč streamovat analytiku. V mnoha případech vidíme, že je to proto, že je to nyní možné a protože každý ví, že je dávka stará, dávka je nudná a dávka není v pohodě. Je tu dost vzdělání, že všichni nyní mají fakt, že je možné streamování a každý teď má Hadoop. Nyní jsou v distribucích Hadoop zabudována technologie streamování, ať už jde o streamování Storm nebo Spark a samozřejmě fronty zpráv, jako je Kafka atd.
Podniky, které vidíme, do toho skočily a začaly experimentovat s těmito případy a vidíme dvě široké kategorie. Jeden má co do činění s analýzou zákazníků a zákaznickými zkušenostmi a druhou provozní inteligencí. K tomu se trochu podrobněji dostanu. Celý zákaznický servis a úhel zážitku zákazníka a my v Impetus StreamAnalytix jsme to dokázali mnoha různými způsoby, je to opravdu o skutečném zachycení multikanálového zapojení spotřebitele v reálném čase a poskytnutí velmi, velmi kontextově citlivých zkušeností které dnes nejsou běžné. Pokud prohlížíte web, webovou stránku Bank of America a zkoumáte některé produkty a zavoláte pouze na call centrum. Řekli by: „Hej, Joe, vím, že jsi zkoumal některé bankovní produkty, chtěl bys, abych tě vyplnil?“ Neočekáváte to dnes, ale to je ten druh zážitku, který je s analýzou streamování skutečně možný. V mnoha případech je to obrovský rozdíl, zejména pokud zákazník začal zkoumat způsoby, jak se z vaší smlouvy dostat s vámi tím, že se podívá na ustanovení o předčasném ukončení nebo podmínky předčasného ukončení na vašem webu a poté zavolá a jste schopni přímo se s tím vypořádat, ale pouze nepřímo učinit nabídku o nějakém druhu první propagace, protože systém ví, že tato osoba se dívá na předčasné ukončení a že tuto nabídku učiníte v tomto okamžiku, můžete velmi dobře chránit zákazníka, který ho má, a chránit toto aktivum .
To by byl jeden příklad a spousta zákaznických služeb je velmi dobrým příkladem. Realizujeme dnes snižuje náklady v call centru a poskytuje dramatické potěšení zákazníků. Dez odvedl skvělou práci při shrnutí některých případů použití. Na tento graf se můžete dívat několik minut. Klasifikoval jsem to jako svislé, vodorovné a kombinované oblasti, IoT, mobilní aplikace a call centrum. Všechny jsou svislé a vodorovné. Záleží na tom, jak se na to díváte. Sečteno a podtrženo, vidíme hodně horizontálních použití, která jsou běžná napříč průmyslovými vertikálními sektory, a existují specifické případy vertikálního použití včetně finančních služeb, zdravotnictví, telekomunikací, výroby atd. Pokud se opravdu ptáte sami sebe na otázku nebo si říkáte sami sebe to, „ach, nevím, jaké případy použití existují. Nejsem si jistý, zda existuje skutečně nějaká obchodní hodnota v analytice streamování pro moji společnost nebo pro náš podnik, “přemýšlejte, přemýšlejte dvakrát. Promluvte si s více lidmi, protože existují případy použití, které jsou dnes ve vaší společnosti relevantní. Dostanu se k obchodní hodnotě toho, jak přesně je obchodní hodnota odvozena.
Ve spodní části pyramidy máte prediktivní údržbu, zabezpečení, ochranu před odlivem atd. Tyto druhy použití představují ochranu výnosů a majetku. Pokud Target chránil jejich narušení bezpečnosti, ke kterému došlo během hodin a týdnů, mohl CIO zachránit svou práci. Mohlo by to ušetřit desítky nebo stovky milionů dolarů atd. Analytika streamování v reálném čase skutečně pomáhá při ochraně těchto aktiv a ochraně ztrát. To je přímá obchodní přidaná hodnota.
Další kategorie se stává ziskovější, snižuje vaše náklady a získává více příjmů ze současného provozu. To je účinnost současného podniku. To jsou všechny kategorie případů použití, které nazýváme operační inteligenci v reálném čase, kde získáváte hlubší přehled o tom, jak se síť chová, jak se chová vaše zákaznická operace, jak se chová váš obchodní proces, a můžete vyladit to vše v reálném čase, protože získáte zpětnou vazbu, dostanete upozornění. Získáte odchylky, odchylky v reálném čase a můžete rychle jednat a oddělit proces, který jde mimo hranice.
Mohli byste také ušetřit spoustu peněz při drahých upgradech kapitálu a věcech, které považujete za nezbytné, které nemusí být nutné, pokud jste optimalizovali síťové služby. Slyšeli jsme o případu, kdy hlavní telco odložilo aktualizaci své síťové infrastruktury o 40 milionů dolarů, protože zjistilo, že má dostatečnou kapacitu pro řízení svého současného provozu, což je optimalizací a lepším provedením inteligentního směrování jejich provozu a podobných věcí. To vše je možné pouze pomocí analytických a akčních mechanismů v reálném čase, které na tyto poznatky v reálném čase působí.
Další úrovní přidané hodnoty je up-sell, cross-sell, kde existují příležitosti, jak vydělat více výnosů a zisků ze stávajících nabídek. Toto je klasický příklad, o kterém mnozí z nás vědí, kde prožili, o čem přemýšlíte ve svém životě, kde jste ochotni dnes koupit produkt, který vám není nabízen. V mnoha případech se to skutečně děje. Máte na mysli věci, které chcete koupit, abyste věděli, že chcete koupit, že máte seznam úkolů nebo něco, co vám řekla vaše žena, nebo pokud nemáte manželku, ale opravdu jste chtěli koupit a jdete nakupovat na webu nebo komunikujete v maloobchodě, výkladní skříň prostě nemá kontext, nemá inteligenci pro výpočet toho, co byste mohli potřebovat. Z tohoto důvodu nezabezpečují své podnikání. Pokud by mohla být nasazena analytika streamování, aby bylo možné přesně předpovídat a která je skutečně možná v tom, co by nejlépe vyhovovalo tomuto konkrétnímu kontextu, tento zákazník v této době v tomto místě existuje spousta up-sell a cross-sell a to opět vychází z streamingová analytika - schopnost rozhodnout se o tom, co tento zákazník pravděpodobně koupí nebo odpoví na tento okamžik pravdy, když má příležitost. Proto mám rád ten obrázek, který Dez ukázal s medvědem, který se právě chystal jíst tu rybu. To je do značné míry.
Také si myslíme, že existuje velká kategorie dramatických transformačních změn v podniku nabízejících zcela nové produkty a služby jednoduše založené na pozorování chování zákazníků, vše založené na pozorování chování jiného podniku. Pokud řekněme, že telco nebo kabelová společnost skutečně pozoruje zvyklosti zákazníků v tom, v jakém segmentu trhu se dívá, jaký program v jakém čase atd., Nakonec nakonec vytvoří produkty a služby, které jsou téměř proseny nějakým způsobem. Celý koncept chování na více obrazovkách právě teď, kde nyní téměř považujeme za samozřejmé, že v našich mobilních aplikacích vidíme televizní nebo kabelový obsah. Některé z těchto příkladů pocházejí z těch nových produktů a služeb, které jsou nabízeny.
Budu se zabývat: „Jaké jsou architektonické úvahy o streamování analytiků?“ Nakonec se to snažíme. Toto je architektura Lambda, kde mísíte historická data a poznatky v reálném čase a zároveň je vidíte. To umožňuje Sigma. Všichni dnes máme dávkovou architekturu a obrázek podniku. Shlukujeme se do nějakého zásobníku BI a zásobníku využití a přidala se architektura Lambda. Protože rychlostní vrstva nebo potřeba a Lambda je o sloučení těchto dvou poznatků a vidění, že kombinovaným způsobem, bohatým způsobem, který kombinuje oba postřehy.
Existuje další paradigma zvaná architektura Kappa, která je navrhována tam, kde se předpokládá, že rychlostní vrstva je jediným vstupním mechanismem, který bude v dlouhodobém horizontu přetrvávat. Všechno prochází touto vrstvou rychlosti. Neexistuje ani mechanismus offline ETL. Všechno ETL se stane. Čištění, čištění dat, kvalita ETL - to vše se stane na drátu, protože mějte na paměti, že všechna data se narodila v reálném čase. V určitém okamžiku to byl reálný čas. Zvykli jsme si to nasadit na jezírka, na řeky a oceány, poté to provedli na statické analýze, že jsme zapomněli, že data se v určitém okamžiku v reálném čase narodila. Všechna data se vlastně rodí jako událost v reálném čase, která se stala v čase, a většina dat dnes na jezeře právě dostala do databáze pro pozdější analýzu a nyní máme výhodu v architektuře Lambda a Kappa vidět, analyzovat, předzpracovat a reagovat na to, jakmile dorazí. To je umožněno těmito technologiemi. Když se na to podíváte jako na celkový obrázek, vypadá to jako něco takového, kde je uvnitř Hadoop, MPP a datové sklady, které již máte.
Uvedli jsme to, protože je důležité nejen mluvit o nových technologiích na ostrově. Musí se integrovat. Musí mít smysl v současném podnikovém kontextu a jako poskytovatelé řešení, kteří slouží podnikům, jsme na to velmi citliví. Pomáháme podnikům takovou integraci celé věci. Na levé straně jsou zdroje dat, které se přivádějí do vrstev Hadoop a datového skladu i do vrstvy v reálném čase nahoře a každý z těchto entit je skladový počítač, jak můžete vidět, a vrstva pro spotřebu dat je napravo postranní. Existuje neustálé úsilí o přesun většiny dodržování předpisů, správy, bezpečnosti, správy životního cyklu atd., Které jsou dnes k dispozici, se do této nové technologie nahromadily.
Jedna z věcí, kterou se analytika streamů snaží udělat, pokud se dnes podíváte na krajinu, se v technologickém prostředí streamování děje spousta věcí a z pohledu podnikového zákazníka je toho tolik, čemu je třeba porozumět. Je toho tolik, co držet krok. Na levé straně jsou mechanismy sběru dat - NiFi, Logstash, Flume, Sqoop. Zjevně jsem uvedl prohlášení, že není vyčerpávající. Přicházet do front zpráv a poté přicházející do open-source streamingových motorů - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Volavka pravděpodobně ještě není otevřeným zdrojem. Nejsem si jistý, jestli je, ze Twitteru. Tyto streamingové motory pak vedou do nebo podporují komponentu analytické aplikace nastavení, jako je komplexní zpracování událostí, strojové učení, prediktivní analytika, výstražný modul, streamování ETL, filtry statistických operací obohacení. To jsou to, čemu nyní říkáme operátoři. Soubor těchto operátorů, když jsou spojeni dohromady, by případně také nějakým zvykem do značné míry uzavřel, pokud je to nutné, se stane aplikací pro streamování, která běží na motoru pro streamování.
V rámci tohoto řetězce součástí musíte také ukládat a indexovat data do své oblíbené databáze, do svého oblíbeného indexu. Možná budete muset distribuovat mezipaměť a znovu, která vede do vrstvy vizualizace dat na pravé straně v horní části, do komerčních produktů nebo produktů s otevřeným zdrojovým kódem, ale nakonec budete potřebovat nějaký druh produktu pro vizualizaci těchto dat v reálném čase. Také je třeba občas přijít na jiné aplikace. Všichni jsme viděli, že hodnoty odvozené pouze z akce, kterou provedete na základě náhledu, tato akce bude spouští z analytického zásobníku do jiného aplikačního zásobníku, který se možná změnil, to je něco na straně IVR nebo spouští call centrum odchozí hovor nebo něco takového. Potřebujeme, aby tyto systémy byly integrovány a nějaký mechanismus pro váš streamovací klastr, aby spustil jiné aplikace odesílání dat po proudu.
To je celkový stack od přechodu zleva doprava. Pak máte servisní vrstvy, střední monitoring, bezpečnostní obecnou servisní vrstvu atd. Co se týče produktů, které jsou v podnikovém prostoru, které zákazníci vidí, jako jsou distribuce Hadoop, které mají všechny streamování, jak jsem řekl, a je komerční nebo singl - řešení pro dodavatele, která jsou zjevně u našich konkurentů. V krajině je také mnohem více, o kterých jsme se možná ani nezmínili.
To, co vidíte, je obecně podnikový uživatel. Jak vidíte, složité a rychle se vyvíjející technologické prostředí pro zpracování proudu. Musíme zjednodušit výběr a jejich uživatelské prostředí. Domníváme se, že podniky skutečně potřebují, je funkční abstrakce toho všeho v jednom kontaktním místě, snadno použitelném rozhraní, které spojuje všechny ty technologie, díky nimž je použití opravdu jednoduché a nevystavuje všechny pohyblivé části. a problémy s degradací a problémy s výkonem a problémy s údržbou životního cyklu podniku.
Abstrakce funkčnosti je jedna. Druhou částí je abstrakce streamovacího motoru. Streamovací stroje a domény s otevřeným zdrojovým kódem se nyní objevují jednou za tři, čtyři nebo šest měsíců. Byla to Storm po dlouhou dobu. Samza přišel a teď je to Spark Streaming. Flink zvedá hlavu a začíná upoutat pozornost. Dokonce i plán Spark Streaming dělají cestu pro potenciální použití jiného motoru pro zpracování čistých událostí, protože si také uvědomují, že Spark byl navržen pro šarže a dělají cestu ve své vizi architektury a jejich plánu pro potenciální použití jiného motor pro zpracování proudu navíc k aktuálnímu vzoru mikrobatch ve Spark Streamingu.
Je to realita, s níž musíte bojovat, že bude hodně evoluce. Opravdu se musíte chránit před tímto technologickým tokem. Protože ve výchozím nastavení budete muset vybrat jeden a pak s ním žít, což není optimální. Pokud se na to díváte jiným způsobem, bojujete mezi: „Dobrá, musím si koupit proprietární platformu, kde není uzamčení, neexistuje pákový efekt z otevřeného zdroje, může být velmi vysoká a omezená. flexibilita versus všechny tyto open source stacky, kde jste to museli udělat sami. “Opět, jak jsem řekl, je to hodně nákladů a zpoždění při vstupu na trh. Říkáme to, že StreamAnalytix je jedním z příkladů skvělé platformy, která spojuje podnikovou třídu, spolehlivý, jediný dodavatel, podporovanou profesionální službu - to vše, co opravdu potřebujete jako podnik, a sílu flexibility ekosystému open source. kde je spojuje jediná platforma - Ingest, CEP, analytika, vizualizace a to vše.
To také dělá velmi, velmi jedinečnou věc, která sdružuje mnoho různých technologických motorů pod jedním uživatelským zážitkem. Opravdu si myslíme, že budoucnost je o tom, že budeme moci používat více streamovacích strojů, protože různé případy použití skutečně vyžadují různé architektury streamování. Jak řekl Robin, existuje celá škála latencí. Pokud opravdu mluvíte o milisekundové latenci, desítkách nebo dokonce stovkách milisekund, v tuto chvíli potřebujete Storm, dokud nebude existovat další stejně vyzrálý produkt pro kratší nebo méně shovívavý časový rámec a latence možná za pár sekund, tři, čtyři, pět sekund, tento rozsah, pak můžete použít Spark Streaming. Potenciálně existují i další motory, které by dokázaly udělat oba. Sečteno a podtrženo, ve velkém podniku budou případy použití všeho druhu. Opravdu chcete, aby měl přístup a obecnost více motorů s jedním uživatelským zážitkem, a to se snažíme postavit ve StreamAnalytix.
Jen rychlý pohled na architekturu. Trochu to přepracujeme, ale v podstatě na levé straně přichází více zdrojů dat - Kafka, RabbitMQ, Kinesis, ActiveMQ, všechny tyto zdroje dat a fronty zpráv přicházející na platformu zpracování streamů, kde získáte sestavení aplikace, kde můžete přetahovat od operátorů, jako jsou ETL, vše, o čem jsme mluvili. Pod ním je několik motorů. Právě teď máme Storm a Spark Streaming jako průmyslovou jedinou a první podnikovou platformu pro streamování, která má podporu více motorů. To je velmi jedinečná flexibilita, kterou nabízíme kromě veškeré další flexibility, kterou mají řídicí panely v reálném čase. Vestavěný motor CET. Máme bezproblémovou integraci s indexy Hadoop a NoSQL, indexy Solr a Apache. Můžete přistát do své oblíbené databáze bez ohledu na to, co to je a vytvářet aplikace opravdu rychle a dostat se na trh opravdu rychle a zůstat v budoucnosti důkazem. To je naše celá mantra ve StreamAnalytix.
S tím si myslím, že dokončím své poznámky. Neváhejte a přijďte k nám pro více otázek. Chtěl bych nechat podlahu otevřenou pro otázky a odpovědi a panelovou diskusi.
Rebecca, k tobě.
Rebecca Jozwiak: Skvělé, dobře. Děkuji mnohokrát. Dez a Robin, máte nějaké otázky, než to předáme divákům Q&A?
Robin Bloor: Mám otázku. Nasadím si sluchátka, abys mě slyšel. Jedna ze zajímavých věcí, pokud byste mi to laskavě řekli, hodně z toho, co jsem viděl v open source prostoru, vypadá, co bych řekl nezralé. V jistém smyslu ano můžete dělat různé věci. Ale vypadá to, že se díváme na software v jeho prvním nebo druhém vydání ve skutečnosti a já jsem se právě zajímal o vaše zkušenosti jako organizace, jak moc vnímáte nezralost prostředí Hadoop jako problematické, nebo je to něco, co nevypadá? nevytváří příliš mnoho problémů?
Anand Venugopal: Je to realita, Robine. Máš naprostou pravdu. Nezralost není nutně jen v oblasti funkční stability a věcí, ale možná i v některých případech. Ale nezralost je spíše v připravenosti na použití. Produkty s otevřeným zdrojovým kódem, jak vyjdou, a dokonce i když jsou nabízeny distribucí Hadoop, jsou to všechny různé schopné produkty, komponenty jen plácly dohromady. Nefungují spolu hladce a nejsou navrženy pro hladký a plynulý uživatelský zážitek, který dostaneme jako Bank of America nebo Verizon nebo AT&T, aby mohli během několika týdnů nasadit analytickou aplikaci pro streamování. Určitě na to nejsou navrženy. To je důvod, proč jsme vstoupili. Sjednocujeme to a je opravdu snadné pochopit, nasadit atd.
Myslím si, že je do značné míry funkční vyspělost. Mnoho velkých podniků dnes používá například Storm. Spark Streaming dnes hraje mnoho velkých podniků. Každý z těchto motorů má svá omezení v tom, co mohou dělat, proto je důležité vědět, co můžete a co nemůžete s každým motorem udělat, a nemá smysl zlomit hlavu proti zdi a říkat: „Podívej se vybral Spark Streaming a v tomto konkrétním odvětví to pro mě nefunguje. “To nebude fungovat. Existují případy použití, kdy Spark Streaming bude nejlepší volbou, a budou případy, kdy Spark Streaming nemusí fungovat vůbec. Proto opravdu potřebujete více možností.
Robin Bloor: No, pro většinu z toho musíte mít týmy odborníků. Myslím, že ani nevím, kde začít. Rozumná spolupráce kvalifikovaných jednotlivců. Zajímá mě, jak se angažujete a jak k tomu dochází. Je to proto, že konkrétní společnost je po konkrétní aplikaci nebo vidíte něco, čemu bych říkal strategické přijetí, pokud chtějí, aby celá platforma dělala spoustu věcí.
Anand Venugopal: Uvidíme příklady obou, Robine. Některé z deseti největších značek, o nichž všichni vědí, se o nich chystají velmi strategickým způsobem. Vědí, že budou mít různé případy použití, takže vyhodnocují platformy, které budou vyhovovat této potřebě, což je řada různých případů použití ve více nájemcích, které mají být nasazeny v podniku. Začínají se také případy jednorázového použití. V hypoteční společnosti existuje konkrétní případ monitorování typu obchodní činnosti, na kterém pracujeme, na kterém byste si nepředstavovali první případ, ale to je obchodní řešení nebo případ použití, ke kterému přišli, a poté jsme spojili tečky s datovým proudem . Řekli jsme: „Víte co? To je skvělý případ pro streamování analytiků a takto je můžeme implementovat. “Takto to začalo. Poté se v tomto procesu vzdělávají a říkají: „Ach, wow, pokud to dokážeme a pokud se jedná o obecnou platformu, můžeme aplikaci oddělit, rozložit je na platformu a na tomto stavět mnoho různých aplikací. plošina."
Robin Bloor: Dez, máš nějaké otázky?
Anand Venugopal: Dez je pravděpodobně na němém zvuku.
Dez Blanchfield: Omlouvám se, němý. Sám jsem měl dobrý rozhovor. Jen následujete původní pozorování Robina, máte naprostou pravdu. Domnívám se, že výzvou nyní je, že podniky mají ekosystém a kulturní a behaviorální prostředí, kde je svobodný a open-source software něčím, co je jim známo, a jsou schopny používat nástroje jako Firefox jako prohlížeč a měly slušný celý život, dokud se nestane stabilním a bezpečným. Ale některé z těch velmi velkých platforem, které používají, jsou podnikové proprietární platformy. Takže přijetí toho, co považuji za open-source platformy, není vždy něco, co je pro ně snadné kulturně nebo emocionálně překonat. Viděl jsem to jen při přijímání malých programů, které byly místními projekty, které si jen hrály s velkými daty a analytikou jako základním konceptem. Myslím, že jednou z klíčových výzev, jsem si jistý, že jste je nyní viděli napříč organizacemi, je jejich touha dosáhnout výsledku, ale zároveň mít jednu nohu zaseknutou ve staré plechovce, kde si ji mohli koupit pouze od „Vložte velkou značku“ Oracle, IBM a Microsoft. Tyto nové a známé značky přicházejí s platformami Hadoop a ještě více. Prochází více vzrušujících značek, které mají špičkovou technologii, jako je stream.
Jaké jsou různé konverzace, které jste prožívali nebo prořezávali? Vím, že dnes ráno máme velkou účast a jedna věc, o které jsem si jist, že je v mysli každého, je: „Jak mohu proříznout celou tuto náročnou vrstvu od desky po úroveň řízení, oh, je to příliš otevřený zdroj a příliš krvácející hrana? „Jak probíhají rozhovory s klienty a jak se protínáte do té míry, že tyto obavy obáváte, abyste zvážili přijetí podobných StreamAnalytix?
Anand Venugopal: Ve skutečnosti je pro nás poměrně snadné prodat naši hodnotovou nabídku, protože zákazníci se přirozeně pohybují směrem k open source jako preferovaná možnost. Nejen se snadno vzdávají a říkají: „Dobrá, teď půjdu na open source.“ Ve skutečnosti prochází velmi odhodlaným hodnocením významného produktu, řekněme, že se jedná o IBM nebo typický produkt, protože mají tyto vztahy s dodavateli. S tímto produktem by s námi ani s otevřeným zdrojovým kódem zacházeli. Projdou šest až osm až dvanáct týdnů hodnocení. Přesvědčí se o tom, že je tu určitý stupeň výkonu a stability, který chci, a pak si vymyslí názor a řeknou: „Páni, víš co, ve skutečnosti to můžu udělat.“
Dnes máme například hlavní telekomunikační úroveň první úrovně, která má na vrcholu řady zásobníků spuštěnou analytiku proudu a vyhodnocují, že proti jinému velmi, velmi velkému známému prodejci byli přesvědčeni až poté, co jsme dokázali všechny výkon, stabilita a všechny tyto věci. Nepovažují to za samozřejmost. Zjistili, že open source je prostřednictvím svých hodnocení kompetentní a uvědomují si, že v nejhorším případě: „Možná existují dva případy použití, které možná nemůžu udělat, ale většina případů mého zrychlení podnikání v dnešní době je u open-source naprosto možné hromadu. “A umožňujeme jeho použití. Tady je to velké sladké místo. Chtěli otevřený zdroj. Opravdu se snaží dostat ven ze zamknuté situace dodavatele, na kterou byli zvyklí mnoho let. Pak sem přijdeme a řekneme: „Víš co, uděláme z open source mnohem, mnohem jednodušší a přátelštější použití pro vás.“
Dez Blanchfield: Myslím, že další výzva, kterou podniky najdou, je, když zavedou tradiční zavedené podniky, které jsou často generací za některými krvácejícími hranami vzrušujících věcí, o nichž zde mluvíme, a nemyslím to jako negativní nepatrný. Skutečností je, že mají generaci a cestu, kterou vydávají, aby vydali to, co považují za stabilní platformy, vývojové cykly a testy a dokumentace integrace UATN a marketing a prodej. Zatímco u typu, který děláte, myslím, že věc, o kterou se zajímám, je, že když se podíváte na některá z vašich nejnovějších vydání včera v noci, věnujete se nějaké výzkumné práci, máte tento mix nyní, kompetence z pohledu prvotního poradenství a implementace, ale také jste dostali hromadu, do které se můžete zapojit. Myslím, že právě tady se stávající subjekty budou nějakou dobu potýkat. Viděli jsme mnoho z nich, jako jsem to udělal na trhu. Často se vyskytují v tom, čemu říkám doháněcí uzly, zatímco z toho, co nám říkáte, když jste tam venku, když jste dělali ty rozhovory a že jste tam implementovali.
Můžete nám uvést několik příkladů některých hraničních vertikálů, které jste viděli adopci? Například existuje opravdu zvláštní prostředí, jako je věda o raketách, umísťování satelitů do vesmíru a shromažďování dat z Marsu. Na planetě to dělá jen hrstka lidí. Existují však velké vertikální oblasti, jako je například zdraví, v letectví, lodní dopravě a logistice, ve výrobě a strojírenství, což je několik příkladů větších a širších průmyslových odvětví, které jste byli tak daleko, že jste viděli opravdu dobře adopce v?
Anand Venugopal: Telco je velkým příkladem.
Tady jen rychle upravím své snímky. Vidíte snímek zde, případová studie 4?
Toto je případ velkých telco přijímajících dat set-top boxů a dělá s nimi více věcí. Hledají, co zákazníci skutečně dělají v reálném čase. Hledají, kde se v set-top boxech dějí chyby v reálném čase. Pokoušejí se informovat call centrum, pokud tento zákazník právě teď volá, informace o kódovém spojení z set-top boxu tohoto zákazníka, informace o údržbovém lístku rychle korelují, zda tento set-top box tohoto konkrétního zákazníka má problém nebo dokonce ani předtím zákazník mluví slovo. Každá kabelová společnost, každé hlavní telco se to snaží. Požívají data set-top boxu, provádějí analýzy v reálném čase, provádějí analýzy kampaní, aby mohli umisťovat své reklamy. Existuje obrovský případ použití.
Jak jsem řekl, je tu tato hypoteční společnost, která je opět obecným vzorcem, ve kterém jsou do zpracování dat zapojeny velké systémy. Data, která protékají systémem A do systému B do systému C, a to jsou regulované podniky, které musí být v souladu. Často se systémy vzájemně synchronizují, jeden systém říká: „Zpracovávám sto půjček v celkové hodnotě 10 milionů dolarů.“ Systém říká: „Ne, zpracovávám 110 půjček jiných jiné číslo. “Musí to vyřešit opravdu rychle, protože ve skutečnosti zpracovávají stejná data a provádějí různé interpretace.
Ať už se jedná o kreditní kartu, zpracování úvěru, obchodní proces nebo o hypoteční obchodní proces nebo něco jiného, pomáháme jim provádět korelaci a usmíření v reálném čase, abychom zajistili, že tyto obchodní procesy zůstanou synchronizované. To je další zajímavý případ použití. Tam je hlavní americký vládní dodavatel, který se dívá na DNS provoz dělat anomálie detekce. Je zde offline tréninkový model, který postavili a dělají hodnocení na základě tohoto modelu v reálném čase. Některé z těchto zajímavých případů použití. Existuje velká letecká společnost, která se dívá na bezpečnostní fronty, a snaží se vám poskytnout ty informace, že: „Hele, je to vaše brána pro vaše letadlo pro váš let. Fronta TSA je dnes asi 45 minut versus dvě hodiny versus něco jiného. “Tuto aktualizaci dostanete předem. Stále na tom pracují. Zajímavý případ použití internetu věcí, ale skvělý případ streamovací analýzy směřující ke spokojenosti zákazníků.
Rebecca Jozwiak: Toto je Rebecca. I když se zabýváte případy použití, existuje velká otázka od posluchače, který se ptá: „Jsou tyto případové studie, jsou tyto iniciativy řízeny analytickými stránkami domu z informačních systémů, nebo jsou více odváděny? podnik, který má na mysli konkrétní otázky nebo potřeby? “
Anand Venugopal: Myslím, že vidíme asi 60 procent, asi 50 až 55 procent, z velké části velmi proaktivní, nadšené technologické iniciativy, které náhodou znají, které se stávají docela důvtipné a rozumějí určitým obchodním požadavkům a pravděpodobně mají jednoho sponzora, že identifikovány, ale jedná se o technologické týmy, které se připravují na nápor případů obchodního využití, které přicházejí, a poté, co si vybudují schopnost, vědí, že to dokážou a pak jdou do podnikání a agresivně to prodávají. Ve 30 až 40 procentech případů vidíme, že podnikání již má zvláštní případ použití, který prosí o analytickou funkci streamování.
Rebecca Jozwiak: To dává smysl. Mám další trochu více technickou otázku od publika. Přemýšlí, jestli tyto systémy podporují jak strukturované, tak nestrukturované datové toky, jako jsou usazeniny streamů Twitter nebo příspěvky na Facebooku v reálném čase, nebo je třeba je nejprve filtrovat?
Anand Venugopal: Produkty a technologie, o kterých mluvíme, velmi bezprostředně podporují strukturovaná i nestrukturovaná data. Lze je konfigurovat. Všechna data mají nějakou strukturu, ať už se jedná o text nebo XML nebo cokoli. Existuje určitá struktura, pokud jde o časovou známku. Možná existuje další blob, který je třeba analyzovat, takže můžete do proudu vložit analýzy do analyzování datových struktur. Je-li strukturovaná, řekneme systému: „Dobrá, pokud existují hodnoty oddělené čárkami a první je řetězec, druhý je datum.“ Takže můžeme vložit tuto parsující inteligenci do vrstev na obrazovce a snadno zpracovávat strukturovaná i nestrukturovaná data.
Rebecca Jozwiak: Mám další otázku od publika. Vím, že jsme utíkali trochu za hodinu. Tento účastník chce vědět, zdá se, že aplikace pro streamování v reálném čase mohou vyvíjet jak potřebu, tak příležitost pro integraci zpět do transakčních systémů, například systémů pro prevenci podvodů. V takovém případě musí být transakční systémy vyladěny tak, aby se do toho vešly?
Anand Venugopal: Je to sloučení, že? Je to sloučení transakčních systémů. Někdy se stanou zdrojem dat, kde analyzujeme transakce v reálném čase a v mnoha případech, kdy řekněme, že existuje aplikační tok a zde se snažím ukázat web pro vyhledávání statických dat a pak v našem případě, kde je nějaký druh streamování a hledáte statickou databázi, jako je HBase nebo RDBMS, která společně obohacuje streamovaná data a statická data, abyste se mohli rozhodnout nebo analyticky prozkoumat.
Také zde vidíme další velký průmyslový trend - konvergenci OLAP a OLTP - a proto máte databáze jako Kudu a databáze v paměti podporující transakce i analytické zpracování současně. Vrstva zpracování proudu by byla zcela v paměti a my se podíváme na některé z těchto transakčních databází nebo se s nimi propojíme.
Rebecca Jozwiak: Smíšené pracovní vytížení je podle mě jednou z posledních překážek. Dez, Robine, máš ještě nějaké otázky?
Dez Blanchfield: Jdu skočit na poslední otázku a zabalit to, pokud vám to nebude vadit. První výzva, kterou organizace, se kterými jsem se potýkal posledních deset let, vedla k této vzrušující výzvě analytiky proudu, první věc, kterou mají tendenci dát zpět na stůl, když jsme zahájili konverzaci kolem celé této výzvy, je to, kde dostaneme sadu dovedností? Jak přeškolíme sadu dovedností a jak získáme tuto schopnost interně? S Impetus přichází a ruka nás drží na cestě a pak implementovat jako velký první krok, a to dává hodně smysl dělat.
Ale pro střední až velké organizace, jaké jsou věci, které v tuto chvíli vidíte, aby se na to připravily, aby si tuto schopnost vybudovaly interně, aby získaly cokoli z pouhé základní slovní zásoby a s jakou zprávou mohou dělat organizace kolem přechodu na tento druh rámce a přeškolení jejich stávajícího technického personálu z oblasti IT od generálního ředitele, aby to mohli sami spustit, jakmile jej vytvoříte a implementujete? Jen velmi stručně, jaké výzvy a jak je řeší, zákazníky, s nimiž se potýkáte, typy výzev, které našli, a jak procházejí řešením těchto rekvalifikací a získávání zkušeností a znalostí, aby se na to připravili a byli schopen operačně chodit?
Anand Venugopal: Malá skupina lidí, kteří se snaží jít ven a koupit si streamingovou analytickou platformu, je již poměrně rozumná v tom, že jsou si vědomi Hadoop, již získali své schopnosti Hadoop MapReduce a protože úzce spolupracují s Hadoop distributora, jsou známé. Všechno dostává například Kafku. S tím něco dělají a streamování Storm nebo Spark je v jejich open-source doméně. Lidé to určitě znají nebo si kolem něj budují dovednosti. Ale začíná to malou skupinou lidí, kteří jsou dostatečně kvalifikovaní a dost chytří. Účastní se konferencí. Učí se, že kladou inteligentní otázky prodejcům a v některých případech se u nich učí. Protože prodejci přicházejí a prezentují se na prvním setkání, nemusí to vědět, ale spolu čtou a pak si s tím začnou hrát.
Tato malá skupina lidí je jádrem a pak se začíná rozšiřovat a všichni si nyní uvědomují, že první případ použití v podnikání je uveden do provozu. Začne vlna a my jsme viděli minulý týden na summitu Spark, kde tam byl velký podnik jako Capital One a byl v plné síle. Zvolili Spark. Mluvili o tom. Vzdělávají mnoho svých lidí ve Sparku, protože k tomu přispívají i v mnoha případech jako uživatel. To samé vidíme u mnoha, mnoha velkých podniků. Začíná několika malými řadami velmi inteligentních lidí a poté začíná vlnou celkového vzdělávání a lidé vědí, že jakmile je vyšší viceprezident nebo jednou vyšší režisér v souladu a chtějí na tuto věc vsadit a slovo se obejde a všichni začnou tyto dovednosti nabírat.
Dez Blanchfield: Jsem si jistý, že také ty fantastické časy stavíte .
Anand Venugopal: Ano. Děláme spoustu vzdělávání, když pracujeme s počátečními šampióny a pořádáme školicí kurzy a mnoho, mnoho pro naše velké zákazníky jsme se vrátili a měli vlny a vlny školení, abychom přivedli mnoho uživatelů do běžné fáze používání, zejména na webu Hadoop MapReduce. Zjistili jsme, že ve velké společnosti vydávající kreditní karty, která je zákazníkem naší, jsme dodali alespoň možná pět až osm různých vzdělávacích programů. Máme také bezplatné komunitní edice všech těchto produktů, včetně našich, karantén, které si lidé mohou stáhnout, zvyknout si a vzdělávat se tímto způsobem.
Dez Blanchfield: To je všechno, co mám dnes ráno pro tebe. Děkuji mnohokrát. Považuji za neuvěřitelně zajímavé vidět typy modelů a případy použití, které pro nás dnes máte. Děkuji.
Anand Venugopal: Skvělé. Děkuji moc lidem.
Rebecca Jozwiak: Děkuji všem za to, že jste se k nám připojili v tomto webcastu Hot Technologies. Bylo fascinující slyšet od Dez Blanchfielda, Dr. Robina Bloora a od Impetus Technologies, Ananda Venugopala. Děkuji přednášejícím. Děkuji řečníkům a děkuji publiku. Příští měsíc máme další Hot Technologies, takže to hledejte. Náš obsah můžete vždy najít archivovaný na Insideanalysis.com. Na SlideShare jsme také vložili spoustu obsahu a také několik zajímavých bitů na YouTube.
To jsou všichni lidé. Ještě jednou díky a přeji hezký den. Ahoj.