Velké železo, splňujte velká data: osvobozujte mainframová data s hadoopem a jiskrou

2025

Od zaměstnanců Techopedia, 2. června 2016

S sebou: Ekosystém Hadoop se používá na sálových počítačích pro rychlé a efektivní zpracování velkých dat.

Momentálně nejste přihlášeni. Chcete-li zobrazit video, přihlaste se nebo se zaregistrujte.

Eric Kavanagh: Dobře dámy a pánové, ve čtvrtek jsou čtyři hodiny východní a v těchto dnech to znamená, že je samozřejmě čas na Hot Technologies. Ano, jmenuji se Eric Kavanagh. Budu vaším moderátorem dnešního webového semináře. Je to dobré, lidi, "Big Iron, Meet Big Data" - Miluji ten nadpis - "Osvobození Mainframe dat s Hadoopem a Sparkem." Budeme mluvit o starých setkáních nových. Páni! Pokrýváme spektrum všeho, o čem jsme hovořili v posledních 50 letech podnikového IT. Spark splňuje mainframe, mám to rád.

Je tu místo o vás opravdu a dost o mně. Rok je horký. V této sérii hovoříme o žhavých tématech, protože se opravdu snažíme lidem pomoci porozumět určitým disciplínám, určitým prostorům. Co to znamená například mít analytickou platformu? Co to znamená osvobodit velká data z mainframů? Co to všechno znamená? Snažíme se vám pomoci porozumět konkrétním druhům technologií, kde se hodí do mixu a jak je můžete využít.

Dnes máme dva analytiky a poté samozřejmě Tendü Yogurtçu ze společnosti Syncsort. Je vizionářkou v našem prostoru, velmi ráda, že ji má dnes online, s našimi vlastními Dez Blanchfieldem a Dr. Robinem Bloorem. Řeknu jen pár rychlých slov. Jedním z nich je to, lidi, v tomto procesu hrajete velkou roli, takže se nemusíte stydět položením několika dobrých otázek. Chtěli bychom se k nim dostat během komponenty Q&A webcastu, který je obvykle na konci show. A vše, co musím říct, je, že máme spoustu dobrého obsahu, takže jsem nadšený, když slyším, co tito kluci musejí říct. A s tím jdu předat Dez Blanchfieldovi. Dezi, podlaha je tvoje, vezmi to pryč.

Dez Blanchfield: Děkuji, Ericu, a děkuji vám všem za účast dnes. Takže jsem docela nadšený, když mám šanci mluvit o jedné z mých oblíbených věcí na světě, mainframe. Dnes se moc nelíbí. Můj pohled je mainframe byla původní velká datová platforma. Někteří by argumentovali, že v té době byli jediným počítačem, a to je spravedlivé, ale po více než 60 let jsou ve skutečnosti strojovnou toho, o čem jsou velká data z poslední doby populární. A já vás vezmu na malou cestu, proč věřím, že tomu tak je.

Viděli jsme cestu v technologických hardwarových balíčcích v souvislosti s přesunem sálových počítačů z obrazu, který nyní vidíte na obrazovce. Toto je starý sálový počítač FACOM, jeden z mých oblíbených. Přesunuli jsme se do velké železné fáze, koncem devadesátých let a boomu dot-com. Toto je Sun Microsystems E10000. Tato věc byla absolutní monstrum na 96 CPU. Původně 64, ale mohlo být upgradováno na 96 CPU. Každý procesor může spouštět 1024 vláken. Každé vlákno by mohlo být v aplikačním množství současně. Bylo to prostě monstrum a ve skutečnosti pohánělo boom dot-com. To jsou všechny velké jednorožce, jak jim říkáme, nyní běží, a to nejen velké podniky, některé z velkých webových stránek.

A pak jsme skončili s tímto běžným běžným komoditním modelem PC. Prostě jsme si připoutali spoustu levných strojů a vytvořili jsme klastr a přistoupili jsme k velké výzvě železa a tomu, co se stalo velkými daty, zejména ve formě projektu Hadoop, který vycházel z vyhledávače open source, Nutch. A v podstatě jsme znovu vytvořili sálový počítač a spoustu malých procesorů, které byly slepeny a byly schopny chovat se jako L-cesty a ve formě provozování samostatných úloh nebo částí úloh, a byly v mnoha ohledech docela efektivní. Levnější, pokud jste začínali menší, ale mnoho z těchto velkých shluků se vždy stalo dražší než mainframe.

Můj názor na tyto věci je, že ve spěchu od dot-com boomu až po to, co se stalo Web 2.0 a nyní pronásleduje jednorožce, jsme zapomněli, že tato platforma stále pohání mnoho našich největších systémů kritických pro poslání. Když přemýšlíme o tom, co běží na platformách sálových počítačů venku. Jde o velká data, zejména o datový workhorse, ale určitě o velká data. Tradiční podnikové a vládní systémy, jako je zejména bankovnictví a správa majetku a pojištění, všichni používáme každý den.

Rezervační systémy a systémy řízení letu, zejména řízení letu, kde je v reálném čase kritický. Téměř každá státní a federální vláda v určitém okamžiku měla sálový počítač a stále je mnoho stále má. Maloobchod a výroba. Některé ze starého softwaru, který byl právě kolem a nikdy neodešel. Jen pokračuje v napájení výrobních prostředí a určitě maloobchod v měřítku. Lékařské systémy. Obranné systémy, jistě obranné systémy.

Posledních pár týdnů jsem četl mnoho článků o skutečnosti, že některé systémy řízení raket stále běží na starých sálových počítačích, pro které se snaží najít díly. Přicházejí na to, jak upgradovat na nové mainframy. Dopravní a logistické systémy. Nemusí to znít jako sexy témata, ale toto jsou témata, kterými se denně zabýváme přes řádky. A některá velmi velká telekomunikační prostředí jsou stále provozována na platformách sálových počítačů.

Když přemýšlíte o typech dat, které tam jsou, jsou všechny kritické. Jsou to opravdu důležité platformy a platformy, které každý den považujeme za samozřejmost, a mnoha způsoby umožňují život. Kdo tedy stále používá mainframe a kdo jsou všichni tito lidé, kteří se drží těchto velkých platforem a drží všechna tato data? Jak jsem zde řekl, věřím, že je snadné být zmaten posunem médií z velkého železa do stojanů běžných shluků nebo levných počítačů nebo počítačů x86, abych si myslel, že sálový počítač zemřel a odešel. Data však říkají, že sálový počítač nikdy neodešel a ve skutečnosti je tu zůstat.

Výzkum, který jsem zde shromáždil v posledních několika týdnech, ukázal, že 70 procent podniků, zejména velkých podniků, stále ještě leží na mainframe nějaké formy. Sedmdesát jedna procent Fortune 500s stále někde provozuje základní obchodní systémy na sálových počítačích. Ve skutečnosti zde máme v Austrálii řadu organizací, které mají datové centrum uprostřed města. Je to skutečný podzemní počítač a počet mainframů, které právě běží, tikají a šťastně vykonávají svou práci. A jen velmi málo lidí ví, že procházky ulicemi, přímo pod nohama v jedné konkrétní části města, je toto obrovské datové centrum plné sálových počítačů. Devadesát dva ze 100 bank po celém světě, mezi 100 nejlepších bank, které stále provozují bankovní systémy na sálových počítačích. Dvacet tři z 25 největších maloobchodních řetězců na světě používá mainframy k provozování svých systémů pro správu maloobchodu na platformách EIP a BI.

Zajímavé je, že 10 z 10 největších pojišťoven stále provozuje své platformy na sálových počítačích a ve skutečnosti napájí své cloudové služby na sálových počítačích. Pokud používáte webové rozhraní nebo mobilní aplikaci někde, kde je prostřední rozhraní, je rozhraní, které ve skutečnosti mluví s něčím opravdu těžkým a velkým na zadní straně.

Stále jsem našel přes 225 státních a místních vládních agentur po celém světě provozovaných na platformách sálových počítačů. Jsem si jistý, že pro to existuje mnoho důvodů. Možná nemají rozpočet na zvážení nového železa, ale to je obrovská stopa velmi velkých prostředí běžících na mainframe s některými velmi kritickými daty. A jak jsem již zmínil dříve, většina zemí stále provozuje své klíčové obranné systémy na mainframe. Jsem si jistý, že se mnoha způsoby snaží dostat se tam, ale jdete.

V roce 2015 provedl průzkum IDC a 350 z průzkumů CIO uvedlo, že stále vlastní a spravuje velké železo ve formě sálových počítačů. A napadlo mě, že je pravděpodobné, že je to více než počet velkých shluků Hadoop, které v současné době běží po celém světě ve výrobě - zajímavá malá statistika. Jdu do toho a ověří to, ale bylo to velké číslo. Tři sta padesát CIO uvedlo, že mají ve výrobě ještě jeden nebo více sálových počítačů.

V loňském roce 2015 nám IBM dala mocný Z13, 13. iteraci jejich mainframové platformy. Média o této věci šla divoce, protože byli ohromeni, že IBM stále dělala mainframy. Když zvedli kapotu a podívali se na to, co bylo pod tou věcí, uvědomili si, že to bylo vlastně na téměř každé moderní platformě, na kterou jsme byli nadšeni ve formě velkých dat, Hadoopu a rozhodně shluků. Tato věc běžela Spark a teď Hadoop nativně. Mohli byste na něm spouštět tisíce a tisíce strojů Linux a vypadalo to a vypadalo to jako jakýkoli jiný klastr. Byl to docela ohromující stroj.

Řada organizací tyto věci vzala a ve skutečnosti jsem udělal několik údajů o tom, kolik z těchto strojů zabírá. Nyní jsem měl názor, že textový terminál 3270 byl nějakou dobu nahrazen webovými prohlížeči a mobilními aplikacemi a existuje spousta dat, která to podporují. Myslím, že nyní vstupujeme do éry, kdy jsme si uvědomili, že tyto sálové počítače neodcházejí a je na nich značné množství dat. A tak to, co nyní děláme, je jednoduše přidat to, čemu říkám analytické nástroje, které se nevyužívají. Nejedná se o aplikace vytvořené na míru. To jsou věci, které jsou jednorázové na zakázku. To jsou věci, které si můžete doslova prostě koupit v zabalené krabici per se a zapojit se do svého sálového počítače a provést nějakou analýzu.

Jak jsem již řekl, ve skutečnosti je mainframe již více než 60 let. Když přemýšlíme o tom, jak dlouho to je, je to déle, než je doba kariéry většiny žijících IT profesionálů. A ve skutečnosti asi i jejich životy. V roce 2002 IBM prodala 2 300 sálových počítačů. V roce 2013 se tento počet rozrostl na 2 700 sálových počítačů. To je 2 700 prodejů sálových počítačů za jeden rok v roce 2013. Nemohl jsem získat přesné údaje o roce 2015, ale domnívám se, že se rychle blíží 3 000 prodaným jednotkám ročně v roce 2015, 2013. A těším se, až to budu moci potvrdit.

S vydáním Z13, 13. iterace mainframové platformy, která si myslím, že je stála kolem 1, 2 nebo 1, 3 miliardy dolarů na vývoj od nuly, IBM, to je, tady je stroj, který vypadá a cítí se stejně jako jakýkoli jiný cluster, který máme dnes a nativně provozujeme Hadoop a Spark. A určitě lze připojit k jiným analytickým a velkým datovým nástrojům nebo vždy připojit k jednomu z vašich stávajících nebo nových klastrů Hadoop. Domnívám se, že zahrnutí platformy mainframe do vaší strategie velkých dat je nutností. Samozřejmě, pokud je máte, máte spoustu dat a chcete přijít na to, jak je odtamtud dostat. A jsou ponecháni, aby shromažďovali prach mnoha způsoby, mentálně a emocionálně, pokud jde o obchodní svět, ale jsou tu, aby zůstali.

Klíčovým prvkem vašeho podniku a zejména vládních velkých datových plánů by mělo být připojení a rozhraní pro všechny vaše analytické nástroje k datům hostovaným na sálových počítačích. A software si je nyní neustále všímá, dobře se na ně dívá a uvědomuje si, co je uvnitř těchto věcí, a spojuje mysli, které začnou získávat trochu nahlédnutí a trochu pocitu, co je vlastně pod kapotou. A s tím se chystám předat svému drahému kolegovi, Dr. Robinovi Bloorovi, a on se přidá na tuto malou cestu. Robine, vezmi to pryč.

Robin Bloor: No, děkuji. Dobře, od té doby, co Dez zpíval písničku mainframe, půjdu do toho, co si myslím, že se děje, pokud jde o starý mainframový svět a nový svět Hadoop. Myslím, že velkou otázkou je, jak spravujete všechna ta data? Není to můj názor, že mainframe je zpochybňováno s ohledem na jeho schopnost velkých dat - jeho schopnost velkých dat je extrémně, jak zdůraznil Dez, je extrémně schopný. Ve skutečnosti na to můžete dát shluky Hadoop. Tam, kde je to zpochybňováno, je z hlediska jeho ekosystému a budu na tom trochu propracovaný.

Zde je několik pozic mainframe. Má vysoké vstupní náklady a to, co se skutečně stalo v minulosti, od poloviny 90. let, kdy začala klesat popularita mainframů, má tendenci ztratit svůj nízký konec, ti lidé, kteří si koupili levné mainframy a nebylo Pro ty lidi to není nijak zvlášť ekonomické. Ale výš ve skutečnosti ve středním a vysokém rozsahu sálového počítače to ve skutečnosti stále bylo, a prokazatelně ve skutečnosti je, neuvěřitelně levný výpočetní systém.

Je třeba říci, že to Linux zachránil, protože Linux implementovaný na mainframe umožnil samozřejmě provozovat všechny Linuxové aplikace. Mnoho Linuxových aplikací tam šlo dříve, než velká data byla dokonce slovo, nebo dvě slova, myslím. Je to vlastně docela vynikající platforma pro privátní cloud. Z tohoto důvodu se může účastnit hybridních cloudových nasazení. Jedním z problémů je, že dovednosti sálových počítačů jsou nedostatečné. Hlavní dovednosti, které existují, ve skutečnosti stárnou v tom smyslu, že lidé opouštějí toto odvětví rok co rok odchodu do důchodu a pouze je nahrazují, pokud jde o počet lidí. To je problém. Ale stále je to levná výpočetní technika.

Oblast, kde to bylo napadeno, je samozřejmě celá tato věc Hadoop. To je obrázek Douga Cuttinga s původním slonem Hadoop. Ekosystém Hadoop je - a zůstane - dominantním velkým datovým ekosystémem. Nabízí lepší měřítko, než dokáže sálový počítač ve skutečnosti dosáhnout, a je to mnohem nižší cena při ukládání dat na dlouhou cestu. Ekosystém Hadoop se vyvíjí. Nejlepší způsob, jak o tom přemýšlet, je jednou konkrétní hardwarová platforma a operační prostředí s ní stane dominantní, pak ekosystém právě ožije. A to se stalo s mainframem IBM. Později se stalo s Digital VAX, stalo se se servery Sun, stalo se s Windows, stalo se s Linuxem.

A co se stalo, je, že Hadoop, na který vždy myslím nebo rád přemýšlím, jako druh distribuovaného prostředí pro data, se ekosystém vyvíjí neuvěřitelnou rychlostí. Chci říct, že pokud jen zmíníte různé působivé příspěvky, které jsou open source, Spark, Flink, Kafka, Presto, a pak do toho přidáte některé z databází, NoSQL a SQL funkce, které nyní sedí na Hadoopu. Hadoop je nejaktivnějším ekosystémem, který ve skutečnosti existuje, určitě v podnikových počítačích. Pokud však chcete s databází nakládat jako s databází, v tuto chvíli prostě nepřináší žádné srovnání s tím, co mám sklon považovat za skutečné databáze, zejména v prostoru datového skladu. A to do jisté míry vysvětluje úspěch řady velkých databází NoSQL, které na Hadoopu nefungují, jako je CouchDB atd.

Jako datové jezero má mnohem bohatší ekosystém než jakákoli jiná platforma a nebude z toho vytěsněn. Jeho ekosystém není jen open-source ekosystém. Nyní existuje dramatický počet členů softwaru, kteří mají produkty, které jsou zásadně vytvořeny pro Hadoop nebo byly importovány do Hadoop. A právě vytvořili ekosystém, že s jeho šířkou nemůže nic konkurovat. A to ve skutečnosti znamená, že se stala platformou pro inovaci velkých dat. Ale podle mého názoru je to stále nezralé a mohli bychom vést dlouhé diskuse o tom, co je a co není, řekněme, operativně vyzrálé s Hadoopem, ale myslím si, že většina lidí, kteří se dívají na tuto konkrétní oblast, si dobře uvědomuje, že Hadoop je desetiletí za mainframem z hlediska provozní schopnosti.

Vyvíjející se datové jezero. Datové jezero je platforma podle libovolné definice a pokud si myslíte, že v podnikových počítačích existuje datová vrstva, je nyní velmi snadné o tom uvažovat, pokud jde o pevné databáze plus datové jezero, které tvoří datovou vrstvu. Aplikace datových jezer jsou četné a rozmanité. Mám zde schéma, které právě prochází různými věcmi, které zabírají data, což je třeba udělat, pokud použijete Hadoop jako pracovní oblast nebo Hadoop a Spark jako pracovní oblast. A máte celou věc - datový řádek, čištění dat, správa metadat, vyhledávání metadat - lze použít pro samotný ETL, ale často vyžaduje, aby ETL přinesl data. Správa hlavních dat, obchodní definice dat, správa služeb co se děje v Hadoopu, správa životního cyklu dat a ETL z Hadoopu, a také máte přímé analytické aplikace, které můžete na Hadoop spouštět.

A proto se stala velmi výkonnou a tam, kde byla úspěšně implementována a implementována, obvykle má na svém povrchu spuštěna alespoň řada těchto aplikací. A většina z těchto aplikací, zejména těch, o kterých jsem byl informován, právě teď nejsou na hlavním počítači k dispozici. Ale můžete je spustit na mainframe, na clusteru Hadoop, který běží v oddílu mainframe.

Datové jezero se podle mého názoru stává přirozenou pracovní oblastí pro rychlou databázovou analýzu a pro BI. Stává se místem, kam data přijímáte, ať už se jedná o firemní data nebo externí data, s tím si pohrávejte, dokud to není, řekněme, dostatečně čisté na to, aby se dalo použít a dobře strukturované, a pak je předáte. A to vše je stále v plenkách.

Myšlenka koexistence mainframu / Hadoopu je podle mého názoru první věcí, že velké společnosti pravděpodobně neopustí mainframe. Z náznaků, které jsem nedávno viděl, vyplývá, že v sálových počítačích roste investice. Ale také nebudou ignorovat ekosystém Hadoop. Vidím čísla 60 procent velkých společností používajících Hadoop, i když mnoho z nich je ve skutečnosti jen prototypováním a experimentováním.

Hádanka pak zní: „Jak způsobíte, že tyto dvě věci spolu existují?“, Protože budou muset sdílet data. Data, která jsou přenesena do datového jezera, potřebují přenést do sálového počítače. Data, která jsou na sálovém počítači, možná budou muset jít do datového jezera nebo přes datové jezero, aby se mohla připojit k jiným datům. A to se stane. A to znamená, že vyžaduje rychlý přenos dat / ETL. Je nepravděpodobné, že pracovní zátěž bude dynamicky sdílena v, řekněme, v prostředí sálových počítačů nebo s něčím v prostředí Hadoop. Budou to sdílená data. A většina dat se nevyhnutelně bude zdržovat na Hadoopu jednoduše proto, že je to platforma s nejnižšími náklady. A analytické zpracování od začátku do konce tam pravděpodobně také zůstane.

Stručně řečeno, v konečném důsledku musíme uvažovat o vrstvě podnikových dat, která pro mnoho společností bude zahrnovat mainframe. A tato datová vrstva musí být aktivně řízena. V opačném případě nebudou oba dobře existovat. Můžu vám míč předat Ericu.

Eric Kavanagh: Znovu, Tendü, právě jsem ti udělal moderátora, tak si ho vezmi.

Tendü Yogurtçu: Děkuji, Ericu. Děkuji za to, že mě máš. Ahoj všichni. Budu hovořit o zkušenostech Syncsort se zákazníky v souvislosti s tím, jak vidíme data jako aktivum v organizaci, srovnáno od mainframe k velkým datům na analytických platformách. A doufám, že na konci zasedání budeme mít také čas na dotazy od publika, protože to je opravdu ta nejcennější část těchto webových přenosů.

Jen pro lidi, kteří nevědí, co Syncsort dělá, je Syncsort softwarová společnost. Byli jsme ve skutečnosti více než 40 let. Začaly na straně sálových počítačů a naše produkty sahají od mainframu k Unixu až po velké datové platformy, včetně Hadoop, Spark, Splunk, a to jak na premise, tak v cloudu. Vždy se zaměřujeme na datové produkty, zpracování dat a produkty integrace dat.

Naše strategie s ohledem na velká data a Hadoop se od prvního dne skutečně měla stát součástí ekosystému. Jako majitelé prodejců, kteří se opravdu zaměřili na zpracování dat pomocí velmi lehkých motorů, jsme si mysleli, že existuje velká příležitost podílet se na tom, aby se společnost Hadoop stala platformou pro zpracování dat a byla součástí této architektury datového skladu nové generace pro organizaci. Od roku 2011 jsme přispívali k open-source projektům Apache, počínaje MapReduce. Byli v první desítce pro Hadoop verze 2 a podíleli se vlastně na několika projektech, včetně balíčků Spark, některé z našich konektorů jsou publikovány v balíčcích Spark.

Využíváme náš velmi lehký modul pro zpracování dat, který je metadata založená na zcela plochých souborech, a velmi dobře sedí s distribuovanými systémy souborů, jako je Hadoop Distributed File System. A využíváme naše dědictví na sálových počítačích, naše zkušenosti s algoritmy, když rozdáváme naše velké datové produkty. A velmi úzce spolupracujeme s hlavními prodejci, hlavními hráči včetně Hortonworks, Cloudera, MapR, Splunk. Hortonworks nedávno oznámila, že bude prodávat náš produkt pro ETL palubní s Hadoop. Se společnostmi Dell a Cloudera máme velmi úzké partnerství, které také prodává náš produkt ETL jako součást jejich velkého datového zařízení. A s Splunk vlastně zveřejňujeme mainframe telemetrii a bezpečnostní data na palubních deskách Splunk. Máme úzké partnerství.

Co myslí každý výkonný pracovník na úrovni C? Je to opravdu „Jak mohu využít své datové zdroje?“ Všichni mluví o velkých datech. Všichni mluví o Hadoop, Spark, další počítačové platformě, která mi může pomoci vytvořit obchodní agilitu a otevřít nové transformační aplikace. Nové příležitosti k uvedení na trh. Každý výkonný pracovník přemýšlí: „Jaká je moje datová strategie, jaká je moje datová iniciativa a jak se mohu ujistit, že nezůstanu pozadu svou konkurencí a že jsem na tomto trhu v příštích třech letech?“ vidět to, když hovoříme s našimi zákazníky, jak mluvíme s naší globální zákaznickou základnou, která je poměrně velká, jak si dokážete představit, protože jsme tu už nějakou dobu.

Když mluvíme se všemi těmito organizacemi, vidíme to také v technologickém zásobníku v narušení, které se stalo s Hadoopem. Je to opravdu proto, abychom uspokojili tento požadavek na data jako aktivum. Využití všech datových aktiv organizace. A viděli jsme, jak se architektura podnikového datového skladu vyvíjí tak, že Hadoop je nyní novým vrcholem moderní datové architektury. A většina našich zákazníků, ať už se jedná o finanční služby, ať už je to pojištění, telco maloobchod, jsou iniciativy obvykle buď zjistíme, že Hadoop jako služba nebo data jako služba. Protože se všichni snaží zpřístupnit datová aktiva pro své externí klienty nebo interní klienty. A v některých organizacích vidíme iniciativy, jako je téměř datový trh pro jejich klienty.

A jeden z prvních kroků k dosažení toho všeho je vytvoření podnikového datového centra. Někdy to lidé nazývají datové jezero. Vytvoření tohoto rozbočovače podnikových dat ve skutečnosti není tak snadné, jak to zní, protože to opravdu vyžaduje přístup a sběr prakticky všech dat v podniku. A tato data jsou nyní ze všech nových zdrojů, jako jsou mobilní senzory, stejně jako ze starších databází, a to v dávkovém režimu a v streamingovém režimu. Integrace dat byla vždy výzvou, avšak s počtem a rozmanitostí zdrojů dat a různými styly doručování, ať už jde o dávkové nebo streamování v reálném čase, je to nyní mnohem náročnější ve srovnání s pěti lety, před deseti lety. Někdy to označujeme jako „Už to není ETL vašeho otce.“

Takže mluvíme o různých datových prostředcích. Protože se podniky snaží pochopit nová data, data, která shromažďují z mobilních zařízení, ať už jsou to senzory u výrobce automobilů nebo je to uživatelská data pro mobilní herní společnost, musí často odkazovat na nejdůležitější datová aktiva v podnik, kterým jsou například informace o zákazníkovi. Tato nejdůležitější datová aktiva často žijí v hlavním počítači. Korelace dat sálových počítačů s těmito novými zdroji, shromážděnými v cloudu, shromážděnými prostřednictvím mobilních zařízení, shromážděnými na výrobní lince japonské automobilové společnosti nebo internetovými aplikacemi věcí, musí dát těmto novým datům smysl odkazováním na jejich starší datové soubory. A tyto starší datové soubory jsou často na mainframe.

A pokud tyto společnosti nejsou schopny to udělat, nejsou schopny napojit se na mainframe data, pak je tu promarněná příležitost. Pak data jako služba nebo využití veškerých podnikových dat ve skutečnosti nevyužívají nejdůležitější aktiva v organizaci. Je zde také část dat o telemetrii a zabezpečení, protože téměř všechna transakční data žijí v hlavním počítači.

Představte si, že půjdete do bankomatu, myslím, že jeden z účastníků sem poslal účastníkům zprávu o ochraně bankovního systému, když přejdete kartou, že transakční data jsou do značné míry celosvětově na hlavním počítači. A zabezpečení a shromažďování bezpečnostních dat a dat telemetrie z mainframů a jejich zpřístupňování prostřednictvím Splunk dashboardů nebo jiných, Spark, SQL, se stává nyní kritičtějším, než kdykoli předtím, kvůli objemu dat a rozmanitosti dat.

Soupravy dovedností jsou jednou z největších výzev. Protože na jedné straně máte rychle se měnící velký datový zásobník, nevíte, který projekt přežije, který projekt nepřežije, měl bych najmout vývojáře Hive nebo Pig? Mám investovat do MapReduce nebo Spark? Nebo další věc, Flink, řekl někdo. Mám investovat do jedné z těchto počítačových platforem? Na jedné straně je udržet krok s rychle se měnícím ekosystémem výzvou a na druhé straně máte tyto staré zdroje dat. Nové sady dovedností se ve skutečnosti neshodují a můžete mít problém, protože tyto zdroje mohou být ve skutečnosti v důchodu. Existuje velká mezera, pokud jde o sady dovedností lidí, kteří rozumí těmto starým datovým zásobníkům a kteří chápou vznikající technologický zásobník.

Druhou výzvou je správa věcí veřejných. Když opravdu přistupujete ke všem podnikovým datům napříč platformami, máme zákazníky, kteří vyjádřili obavy, že: „Nechci, aby moje data dopadla. Nechci, aby byla moje data zkopírována na více místech, protože se chci co nejvíce vyhnout vícenásobným kopiím. Chci mít komplexní přístup, aniž bych tam přistával uprostřed. “Správa těchto údajů se stává výzvou. A další část je, že pokud přistupujete k datům, která zúžení, pokud shromažďujete většinu svých dat v cloudu a přistupujete ke starým datům a odkazujete na ně, šířka pásma sítě se stává problémem, platformou klastrů. Existuje mnoho výzev, pokud jde o tuto iniciativu pro velké údaje a pokročilé analytické platformy a přitom využívající veškerá podniková data.

To, co nabízí Syncsort, jsme označováni jako „jednoduše nejlepší“ ne proto, že jsme prostě nejlepší, ale naši zákazníci nás skutečně označují jako jednoduše nejlepší v přístupu a integraci mainframových dat. Podporujeme všechny datové formáty z mainframe a zpřístupňujeme je pro analýzu velkých dat. Ať už je to na Hadoop nebo Spark nebo na další počítačové platformě. Protože naše produkty skutečně izolují složitost počítačové platformy. Jako vývojář se potenciálně vyvíjíte na notebooku, zaměřujete se na datové potrubí a jaké jsou datové přípravy, kroky k tomu, aby tato data byla vytvořena pro analytiku, další fáze, a podnikli stejnou aplikaci v MapReduce nebo ji převzali ve Sparku stejná aplikace.

Pomohli jsme tomu našim zákazníkům, když se stalo dostupným YARN, a oni museli přesunout své aplikace z MapReduce verze 1 do YARN. Pomáháme jim dělat to samé s Apache Spark. Náš produkt, nové vydání 9, běží také se Sparkem a dodává se s dynamickou optimalizací, která izoluje tyto aplikace pro budoucí počítačové rámce.

Máme tedy přístup k datům mainframe, ať už se jedná o soubory VSAM, ať už jde o DB2, nebo o telemetrická data, jako jsou záznamy SMF nebo Log4j nebo syslogs, které je třeba vizualizovat prostřednictvím řídicích panelů Splunk. A zatímco to dělá, protože organizace může využít své stávající datové inženýry nebo ETL dovednosti, doba vývoje je výrazně zkrácena. Ve skutečnosti u společností Dell a Cloudera byl sponzorován nezávislý benchmark a tento benchmark se zaměřil na dobu vývoje, pokud děláte ruční kódování nebo používáte jiné nástroje, jako je Syncsort, a bylo to asi 60, 70% zkrácení doby vývoje . Překlenutí dovedností nastavuje mezeru mezi skupinami, napříč těmito hostiteli datových souborů a také těmito hostiteli datových souborů, pokud jde o lidi.

Tým velkých dat nebo tým přijímající data nebo tým, který má za úkol vyvinout tato data jako architekturu služeb, obvykle nemusí mluvit s týmem sálových počítačů. Chtějí minimalizovat tuto interakci téměř v mnoha organizacích. Uzavřením této mezery jsme postoupili. A nejdůležitější součástí je opravdu zajištění celého procesu. Protože v podniku, když jednáte s tímto druhem citlivých dat, existuje mnoho požadavků.

Ve vysoce regulovaných odvětvích, jako je pojištění a bankovnictví, se naši zákazníci zeptají: „Nabízíte tento přístup k mainframovým datům a to je skvělé. Můžete mi také nabídnout, aby byl tento formát záznamu zakódovaný EBCDIC uchováván v původním formátu, abych mohl splnit své požadavky na audit? “Takže děláme Hadoop a Apache Spark, aby rozuměl mainframovým datům. Můžete si data ponechat v původním formátu záznamu, provádět zpracování a počítačovou platformu distributora úrovní a pokud potřebujete vrátit zpět, můžete ukázat, že se záznam nezměnil a formát záznamu se nezměnil, můžete splnit regulační požadavky .

A většina organizací, protože vytvářejí datový rozbočovač nebo datové jezero, se to snaží také jediným kliknutím, aby bylo možné mapovat metadata ze stovek schémat v databázi Oracle na tabulky Hive nebo ORC nebo Parquet. je nezbytné. Dodáváme nástroje a poskytujeme nástroje, díky nimž se jedná o jednokrokový přístup k datům, automatické generování úloh nebo přesun dat a automatické generování úloh pro mapování dat.

Mluvili jsme o části připojení, souladu, správě a zpracování dat. A naše produkty jsou k dispozici jak v areálu, tak v cloudu, což je velmi jednoduché, protože společnosti nemusí přemýšlet o tom, co se stane v příštím roce nebo dvou, pokud se rozhodnu jít úplně ve veřejném cloudu versus hybrid prostředí, protože některé klastry mohou být provozovány na předpokladu nebo v cloudu. A naše výrobky jsou dostupné jak na Amazon Marketplace, na EC2, Elastic MapReduce, tak také do kontejneru Docker.

Jednoduše řečeno, takže máme dostatek času na Q&A, je to opravdu o přístupu, integraci a dodržování správy dat, ale vše je jednodušší. A zatímco toto zjednodušení „designu jednou a nasazení kdekoli“ ve skutečném smyslu znamená, protože díky našim otevřeným zdrojovým příspěvkům náš produkt pracuje nativně v toku dat Hadoop a nativně se Sparkem, což izoluje organizace od rychle se měnícího ekosystému. A poskytuje jediný datový kanál, jediné rozhraní pro dávkové i datové proudy.

A to také pomáhá organizacím tyto rámce někdy vyhodnotit, protože možná budete chtít skutečně vytvářet aplikace a prostě běžet na MapReduce versus Spark a vidět sami, ano, Spark má tento slib a poskytuje veškerý pokrok v iteračních algoritmech pro nejlepší strojové učení a prediktivní analytické aplikace pracují se Sparkem, mohu si také nechat své streamingové a dávkové pracovní zatížení provádět v tomto počítačovém rámci? Pomocí našich produktů můžete vyzkoušet různé počítačové platformy. A dynamická optimalizace bez ohledu na to, zda běžíte na samostatném serveru, na svém notebooku, v Google Cloud versus Apache Spark, je pro naše zákazníky opravdu cenným návrhem. A bylo to skutečně poháněno výzvami, které měli.

Pokryju jen jednu z případových studií. Toto je Guardian Life Insurance Company. Iniciativa Guardian spočívala ve skutečnosti ve centralizaci jejich datových aktiv a jejich zpřístupnění pro jejich klienty, zkrácení doby přípravy dat a řekli, že všichni mluví o přípravě dat, přičemž vezmou 80 procent celkového plynovodu na zpracování dat a uvedli, že ve skutečnosti 75 až 80 procent pro ně a chtěli zkrátit přípravu dat, dobu transformace, čas na uvedení analytických projektů na trh. Vytvořte tuto pružnost, když přidávají nové zdroje dat. A zpřístupněte tento centralizovaný přístup k datům všem svým klientům.

Jejich řešení, včetně produktů Syncsort, je právě teď datové tržiště Amazon Marketplace, které je podporováno datovým jezerem, což je v podstatě Hadoop, a databází NoSQL. A pomocí našich produktů přinášejí veškerá datová aktiva do datového jezera, včetně DB2 na mainframu, včetně souborů VSAM na mainframu, a starých datových zdrojů databáze a nových zdrojů dat. V důsledku toho centralizovali opakovaně použitelná datová aktiva, která jsou prohledávatelná, přístupná a dostupná jejich klientům. A jsou skutečně schopni přidávat nové zdroje dat a obsluhovat své klienty mnohem rychleji a efektivněji než dříve. A analytické iniciativy se ještě více vyvíjejí na prediktivní straně. Takže se pozastavím a doufám, že to bylo užitečné, a pokud máte nějaké dotazy týkající se některého z souvisejících témat, prosím, jste vítáni.

Eric Kavanagh: Jistě, a Tendü, jednoho prostě hodím dovnitř. Dostal jsem komentář od posluchače, který prostě řekl: „Líbí se mi tento 'design jednou, rozmístím se kdekoli.'“ Dokážete se nahlédnout, jak je to pravda? Co jsi udělal, abys umožnil takovou obratnost a existuje nějaká daň? Například, když mluvíme například o virtualizaci, vždy existuje trochu daně z výkonu. Někteří lidé říkají dvě procenta, pět procent 10 procent. Co jste udělali pro to, abyste mohli návrh jednou povolit, nasadit kdekoli - jak to děláte a jak s ním souvisí nějaká daň z hlediska výkonu?

Tendü Yogurtçu: Jasně, děkuji. Ne, protože na rozdíl od některých jiných dodavatelů ve skutečnosti neprodukujeme Hive nebo Pig nebo nějaký jiný kód, který není pro naše motory nativní. To je místo, kde naše open-source příspěvky hrály obrovskou roli, protože jsme velmi úzce spolupracovali s prodejci Hadoop, Cloudera, Hortonworks a MapR a díky našim open-source příspěvkům náš motor ve skutečnosti běží nativně jako součást toku, jako součást toku Hadoop, jako součást Spark.

Co to také překládá, máme tuto dynamickou optimalizaci. To bylo něco, co přišlo v důsledku toho, že naši zákazníci byli napadáni počítačovými rámci. Když se chystali do výroby s některými aplikacemi, vrátili se a řekli: „Jen stabilizuji svůj cluster Hadoop, stabilizuji na MapReduce YARN verze 2, MapReduce Version 2 a lidé mluví, že MapReduce je mrtvý, Spark je další věc, a někteří lidé říkají, že Flink bude další věc, jak se s tím vypořádám? “

A tyto výzvy pro nás byly skutečně tak zřejmé, investovali jsme do dynamické optimalizace, kterou nazýváme inteligentní provedení. V době běhu, když je úloha, když je tento datový kanál odeslán, na základě klastru, ať už je to Spark, ať už je to MapReduce nebo samostatný server Linux, se v rámci toho rozhodneme, jak tuto úlohu nativně spustit v našem motoru. Tok dat Hadoop nebo Spark. Neexistuje žádná režie, protože vše se děje prostřednictvím této dynamické optimalizace, kterou máme, a všechno se také děje, protože náš motor je nativně integrován kvůli našim otevřeným zdrojovým příspěvkům. Odpovídá to na vaši otázku?

Eric Kavanagh: Jo, to je dobře. A já tam chci hodit ještě jednu otázku, a pak Dezi, možná i my zatáhneme vás a Robina. Právě jsem dostal veselý komentář od jednoho z našich účastníků. Budu si to přečíst, protože je to opravdu docela smutno. Píše: „Zdá se, že v dějinách věcí HOT“ - získejte to? Jako IoT - ”je to, že čím více se pokusíte„ zjednodušit “něco, co je opravdu složité, častěji než ne, tím jednodušší je to dělat věci, dodává se více zavěšeného lana. Přemýšlejte o databázovém dotazu, výbuchu, vícevláknovém zpracování atd. “Můžete k tomuto paradoxu trochu komentovat, že odkazuje? Jednoduchost versus složitost a v podstatě co se vlastně děje pod kryty?

Tendü Yogurtçu: Jasně. Myslím, že je to velmi platný bod. Když věci zjednodušujete a děláte tyto optimalizace, způsobem pod kryty, někdo musí vzít tu složitost toho, co se musí stát, že? Pokud něco paralyzujete nebo se rozhodujete, jak spustit konkrétní úlohu s ohledem na počítačovou strukturu, je zjevně tu část úlohy, která je tlačena, ať už je to na uživatelském konci, kódování nabídek, nebo je to na optimalizaci motoru. Součástí je to, že zjednodušením uživatelského prostředí je obrovská výhoda, pokud jde o schopnost využívat sady dovedností, které v podniku existují.

A můžete tento druh paradigmatu zmírnit a zmírnit tuto výzvu: „Jo, ale nemám kontrolu nad vším, co se děje pod krytem, pod kapotou v motoru, “ tím, že vystavujete věci pokročilějším uživatelům, pokud chtějí mít takový druh kontroly. Investováním také do některých druhů použitelnosti. Být schopen nabídnout operativnější metadata, operativnější data, jako v příkladu, který tento účastník dal, pro dotaz SQL i se spuštěným motorem. Doufám, že odpovědi.

Eric Kavanagh: Jo, to zní dobře. Dez, vezmi to pryč.

Dez Blanchfield: Jsem opravdu rád, abych získal více nahlédnutí do vaší stopy v otevřených zdrojových příspěvcích a na cestě, kterou jste si vzali z vašich tradičních, dlouholetých zkušeností v mainframe a proprietárním světě a poté se přesunuli do přispět k otevřenému zdroji a jak k tomu došlo. A další věc, kterou chci pochopit, je názor, který vidíte, že podniky, nejen IT oddělení, ale firmy nyní berou ohled na datová centra nebo datová jezera, jak lidé teď říkají a zda vidí tento trend pouze jediné, konsolidované datové jezero nebo zda vidíme distribuovaná datová jezera a lidé používají nástroje k jejich sestavení?

Tendü Yogurtçu: Jasně. Pro první to byla velmi zajímavá cesta, jako softwarová společnost vlastníků, jedna z prvních po IBM. Všechno však začalo opět u našich evangelistických zákazníků, kteří se dívali na Hadoop. Měli jsme datové společnosti, jako je ComScore, byly jedním z prvních, které si osvojily Hadoop, protože shromažďovaly digitální data po celém světě a nedokázaly uchovávat 90 dnů dat, pokud do své investice do svého úložiště datových skladů ve výši 10 milionů dolarů neinvestovaly životní prostředí. Začali se dívat na Hadoopa. S tím jsme se také začali dívat na Hadoop.

A když jsme se rozhodli a uznali, že Hadoop bude skutečně datovou platformou budoucnosti, také jsme pochopili, že v tom nebudeme moci hrát, v tom úspěšnou, pokud byly součástí ekosystému. A velmi úzce jsme spolupracovali s prodejci Hadoop, s Cloudera, Hortonworks, MapR atd. Začali jsme s nimi opravdu mluvit, protože partnerství se stává velmi důležitým pro ověření hodnoty, kterou může dodavatel přinést, a také zajišťuje, abychom mohli společně jít do podniku a nabídnout něco smysluplnějšího. Vyžadovalo to hodně budování vztahů, protože jsme nebyli známí open source projektům Apache, musím však říci, že jsme měli od těchto prodejců Hadoop velkou podporu.

Začali jsme společně pracovat a hledali jsme na centrum, jak můžeme přinést hodnotu, aniž bychom v našem prostoru měli dokonce i svůj vlastní software. To bylo důležité. Nejde jen o uvedení některých rozhraní API, na kterých váš produkt může běžet, ale o to, abych mohl říci, že do toho investuji, protože věřím, že Hadoop bude platformou budoucnosti, takže investováním do zdrojů, které jsme chtěli vyrobit ujistěte se, že dozrává a stane se připraveným na podnikání. Ve skutečnosti můžeme povolit některé případy použití, které nebyly k dispozici před našimi příspěvky. To prospěje celému ekosystému a tato partnerství můžeme rozvíjet velmi úzce.

Trvalo to hodně času. Začali jsme přispívat v roce 2011 a 2013, 21. ledna - vzpomínám si na datum, protože k tomuto datu došlo k našemu největšímu příspěvku, což znamenalo, že nyní můžeme mít naše výrobky obecně k dispozici od té chvíle - rozvoj těchto vztahů trvalo nějakou dobu., ukázat hodnotu, partneři se stávají designovými partnery s prodejci a s dodavateli v komunitě open source. Ale byla to spousta legrace. Jako společnost pro nás bylo velmi přínosné být součástí tohoto ekosystému a rozvíjet skvělé partnerství.

Druhá otázka týkající se datového centra / datového jezera, myslím, že když vidíme tato data jako implementaci služby ve většině případů, ano, mohou to být klastry, fyzicky jednoduché nebo vícenásobné klastry, ale je to více koncepční než stát se tím jediným místem za všechna data. Protože v některých organizacích vidíme velká nasazení klastrů na základě předpokladu, mají však také klastry, například ve veřejném cloudu, protože některá data, která se shromažďují z online sekcí, se v cloudu skutečně uchovávají. Je možné mít jediný datový kanál, který můžete využít oba, a používat je jako jediné datové centrum, jediné datové jezero, se stává důležitým. Myslím, že to nemusí být jen fyzické místo, ale mít tento datový rozbočovač a datové jezero napříč klastry, napříč zeměpisnými oblastmi a možná i za předpokladu a cloud bude velmi kritické. Obzvláště vpřed. Tento rok jsme začali vidět další a další cloudová nasazení. Je to úžasné. V první polovině tohoto roku jsme zatím viděli mnoho cloudových nasazení.

Eric Kavanagh: Dobře, v pohodě. A Robine, máš nějaké otázky? Vím, že nám zbývá jen pár minut.

Robin Bloor: Dobře, můžu jí položit otázku. První věc, která mě napadla, je to, že o Kafce bylo hodně vzrušení a zajímalo mě, jaký máte názor na Kafku a jak se integrujete se způsobem, jakým lidé Kafku používají?

Tendü Yogurtçu: Jasně. Ano, Kafka se stává docela populární. Mezi našimi zákazníky vidíme, že být druh vrstvy přenosu dat a viděli, že data jsou sběrnice, do značné míry. Například jeden z našich zákazníků ve skutečnosti používal druh náročných dat, která se do této Kafky vkládají mezi více, jako tisíce online uživatelů, a jsou schopni je klasifikovat a prosadit.

Kafka je opět datová sběrnice pro různé spotřebitele těchto dat. Klasifikujte některé pokročilé uživatele versus ne tak pokročilé uživatele a udělejte něco jiného vpřed v tomto datovém potrubí. Jak se integrujeme s Kafkou, je to, že se náš produkt DMX-h stává spolehlivým spotřebitelem, vysoce efektivním a spolehlivým spotřebitelem pro Kafku. Může číst data a to se nijak neliší od čtení dat z jakéhokoli jiného zdroje dat pro nás. Dáváme uživatelům možnost ovládat okno buď z hlediska časového požadavku, který mají, nebo podle počtu zpráv, které mohou konzumovat ze sběrnice Kafka. A pak můžeme také data obohatit, protože to prochází našim produktem a tlačí se zpět do Kafky. Testovali jsme to. Testovali jsme to u zákazníka. Také certifikováno Confluent. Úzce spolupracujeme s chlapci Confluent a je velmi výkonný a snadno použitelný. Opět platí, že se API změní, ale nemusíte se obávat, protože produkt skutečně považuje toto za další zdroj dat, zdroj datových proudů. Je docela zábavné pracovat s naším produktem a Kafkou.

Robin Bloor: Dobře, mám další otázku, která je jen druhem obecné obchodní otázky, ale Syncsort znám dlouho a vždy jste měli pověst a dodávali jste mimořádně rychlý software pro ETL a mainframe. Je to tak, že většina vaší firmy se nyní převádí na Hadoop? Je to tak, že jste nějakým způsobem rozšířili své podnikání docela dramaticky ze světa sálových počítačů?

Tendü Yogurtçu: Naše produkty sálových počítačů stále celosvětově provozují 50 procent sálových počítačů. Máme tedy velmi silnou produktovou řadu mainframe kromě toho, co děláme na velkých datech a na konci Hadoop. A my jsme stále ve většině projektů IT pro zjednodušení nebo optimalizaci, protože existuje jeden konec, který chcete mít možnost napojit se na vaše mainframová data na velkých datových platformách Multex a využívat veškerá podniková data, existují však také velmi kritická transakční pracovní zatížení. které stále běží na hlavním počítači a my těmto zákazníkům nabízíme způsoby, jak tyto aplikace efektivněji zefektivnit, běžet v motoru zIIP, takže nespotřebovávají tolik zpracovatelských cyklů a MIPS, což je činí nákladově efektivní.

I nadále investujeme do produktů sálových počítačů a vlastně hrajeme do tohoto prostoru, kde lidé přecházejí z mainframového velkého železa na velká data a pokrývají produktovou řadu i na těchto platformách. Takže nemusíme nutně přesouvat celé podnikání na jednu stranu, máme i nadále velmi úspěšné podnikání na obou stranách. A akvizice jsou pro nás také velkým zaměřením. S tím, jak se tento prostor pro správu dat a zpracování dat pro velké datové platformy vyvíjí, jsme také odhodláni provést několik doplňkových akvizic.

Robin Bloor: No, myslím, že se tě nemůžu zeptat, jaké jsou, protože bys mi nemohl říct. Zajímá mě, zda jste viděli mnoho implementací Hadoop nebo Spark skutečně na mainframe, nebo zda je to velmi vzácná věc.

Tendü Yogurtçu: Neviděli jsme žádné. O tom je další otázka. Myslím si, že Hadoop na mainframe nedal moc smysl kvůli druhu základní struktury. Nicméně Spark na mainframe je docela smysluplný a Spark je opravdu velmi dobrý, pokud jde o strojové učení a prediktivní analýzu, a že je schopen mít některé z těchto aplikací s mainframovými daty, je, myslím, docela smysluplné. Ještě jsme nikoho neviděli dělat, ale je to opravdu případ použití těchto věcí. Pokud váš případ použití jako společnosti přináší více mainframových dat a integraci se zbytkem datových sad ve velké datové platformě, je to jeden příběh. Vyžaduje přístup k mainframovým datům z velké datové platformy Multex, protože je nepravděpodobné, že přenesete vaše datové sady z otevřených systémů a zavoláte zpět do mainframu. Pokud však máte některá data z mainframů, která chcete prozkoumat a trochu prozkoumáte, zkuste použít pokročilé AI a pokročilé analytické nástroje. Spark může být dobrým způsobem, jak jít a běžet na mainframe.

Eric Kavanagh: A tady je ještě jedna otázka od publika, vlastně dvě další. Dám ti otázku týmu týmů, pak zabalíme. Jeden účastník se ptá: „Integruje IBM vaše příspěvky s otevřeným zdrojovým kódem do svého veřejného cloudového ekosystému, jinými slovy, Bluemix?“ A další účastník učinil opravdu dobrý bod a poznamenal, že Syncsort je skvělý pro udržení živého železa pro ty, kteří již to mají, ale pokud společnosti upustí od nových mainframů ve prospěch toho, čemu říká CE, zamlžují všechno, že to pravděpodobně poklesne, ale poznamenává, že vy jste opravdu dobří v pohybu dat obcházením operačních systémů až do gigabajtů za sekundu. Dokážete mluvit o své hlavní síle, jak zmínil, a zda IBM integruje vaše věci do Bluemixu?

Tendü Yogurtçu: Se společností IBM jsme již partnery společnosti IBM a vedli jsme diskuse o jejich službách cloud computingu nabízejících produkt. Naše příspěvky s otevřeným zdrojovým kódem jsou přístupné všem, kteří je chtějí využít. Některé konektivity sálových počítačů jsou k dispozici také v balíčcích Spark, tedy nejen v IBM. Kdokoli je může využít. V Bluemixu jsme na tom ještě nic neudělali. A vadilo by vám opakovat druhou otázku?

Eric Kavanagh: Jo, druhá otázka se týkala vaší klíčové oblasti funkčnosti v průběhu let, která se opravdu zabývala úzkými místy ETL a očividně to je něco, co vy, chlapi, stále děláte jako mainframy, no, teoreticky zůstaňte daleko, i když Dez je bod je stále druh houpání a válcování tam. Účastník ale právě poznamenal, že Syncsort je velmi dobrý v pohybu dat obejdou operační systémy a až do gigabajtů za sekundu. Můžeš se k tomu jen vyjádřit?

Tendü Yogurtçu: Ano, naše skutečná celková efektivita zdrojů byla naší silnou stránkou a škálovatelnost a výkonnost byla naší silnou stránkou. Nejsme kompromisní, zjednodušení má mnoho významů, z nich nekompromisní. Když lidé například začali hovořit o Hadoopu v roce 2014, mnoho organizací se zpočátku na výkon opravdu nepodívalo. Říkali: "Ach, pokud se něco stane, můžu přidat další pár uzlů a budu v pořádku, výkon není můj požadavek."

Zatímco jsme mluvili o tom, že budeme mít nejlepší výkon, protože už jsme nativně běhali, neměli jsme ani nějaké počáteční škytavky, které měl Hive s více úlohami MapReduce, a režijní náklady s jejich spuštěním. Lidé nám říkali: „Ach, to není moje starost, neboj se toho v tuto chvíli.“

Když jsme přišli do roku 2015, tato krajina se změnila, protože někteří z našich zákazníků již překročili úložiště, které měli ve svých produkčních klastrech. Bylo pro ně velmi důležité zjistit, co může Syncsort nabídnout. Pokud berete některá data z databáze nebo sálových počítačů a zapisujete do formátu Parkety ve shlucích, ať už přistáváte a jevíte a děláte jinou transformaci, nebo jen děláte transformaci letu a formát cílového souboru, změnil se rozdíl, protože ukládáte z úložiště, ukládáte ze síťové šířky pásma, šetříte pracovní vytížení klastru, protože neběžíte další úlohy. Zdá se, že tyto silné stránky, které hrajeme, pokud jde o velmi vědomí, cítíme efektivitu zdrojů pod naší kůží.

Takto to popisujeme. Je to pro nás kritické. Nepovažujeme to za samozřejmost. Nikdy jsme to nepovažovali za samozřejmost, takže budeme i nadále silní díky pákovému efektu v Apache Spark nebo v dalším počítačovém rámci. To bude i nadále naším zaměřením. A pokud jde o pohyb dat a přístup k datům, rozhodně je to jedna z našich silných stránek a přistupujeme k datům DB2 nebo VSAM na mainframech v kontextu Hadoop nebo Spark.

Eric Kavanagh: No, to je skvělý způsob, jak ukončit webcast, lidi. Děkuji mnohokrát za váš čas a pozornost. Děkuji vám, Tendü a Syncsort, že jste přišli do zasedací místnosti a vstoupili do kola, jak se říká. Mnoho skvělých otázek od publika. Je to neustále se pohybující prostředí, lidi. Tuto Hot Tech budeme archivovat stejně jako se všemi ostatními. Najdete nás na insideanalysis.com a na techopedia.com. Obvykle to jde asi za den. A s tím se ti rozloučíme, lidi. Děkuji mnohokrát. Brzy s tebou mluvíme. Opatruj se. Ahoj.