Od zaměstnanců Techopedia, 8. června 2016
Take away : Host Eric Kavanaugh diskutuje o inovacích v databázové technologii s odborníky Dez Blanchfield, Robin Bloor a Bert Scalzo.
Momentálně nejste přihlášeni. Chcete-li zobrazit video, přihlaste se nebo se zaregistrujte.
Eric Kavanagh: Dámy a pánové, je středa, ve čtyři východní časy. Jsem v New Orleans, léto se blíží, to znamená, že je horko! Je čas na Hot Technologies, ano, opravdu ano. Jmenuji se Eric Kavanagh, budu vaším hostitelem. Budu kopat míč zpátky sem pro Hot Technologies. Dnešní téma je „Forward Momentum: Moving Relational Beyond Traditional“. Lidi, dnes máme v telefonu tři odborníky na databázi, takže jakékoli otázky, které máte, pošlete jim ty tvrdé, nebojte se. Dnes máme pro vás připravenou spoustu dobrého obsahu. Je tu opravdu vaše místo, dost o mně. Tento rok je samozřejmě horký. V této show hovoříme o horkých technologiích, což je partnerství s našimi přáteli z Techopedia. A dnes jdeme až k založení správy informací, což je samozřejmě databáze. Budeme mluvit o tom, jak jsme se sem dostali, co se dnes děje a co se děje vpřed. Děje se spousta velmi zajímavých věcí.
Je zřejmé, že v databázovém prostoru máme nějaké závažné inovace. Chvíli to bylo trochu ticho; Pokud mluvíte s některými analytiky v oboru, řekl bych pravděpodobně od roku 2005, 2009 do roku 2009 nebo „10“, nezdálo se, že by se toho v oblasti inovací příliš dělo. A najednou to prostě vypuklo, jako útěk z vězení nebo tak něco, a teď se dějí všechny zajímavé věci. Hodně z toho je kvůli rozsahu webu a všem skvělým vlastnostem webu, které dělají různé zajímavé věci. Odtud pochází koncept NoSQL. A to znamená dvě různé věci: to znamená, že žádný SQL, protože v něm nepodporuje SQL, to také znamená nejen SQL. Někteří lidé používají termín „NewSQL“. Ale samozřejmě, SQL - Structured Query Language - je ve skutečnosti základ, je to základ dotazování.
A je zajímavé, že všechny tyto motory NoSQL, co se stalo? No, oni vyšli, bylo tam hodně vzrušení, a pak o pár let později, co jsme všichni začali slyšet? Oh, SQL na Hadoopu. Všechny tyto společnosti začaly fackovat rozhraní SQL do svých nástrojů NoSQL a každý, kdo je ve světě programování, ví, že to povede k některým výzvám a některým obtížím a některým překříženým drátům atd. Dnes se tedy dozvíme o mnoha takových věcech.
Jsou tu tři moderátoři: zavolali jsme Dez Blanchfielda ze Sydney, našeho vlastního Robina Bloora, který je v Texasu, a stejně tak Bert Scalzo, který je také v Texasu. Takže v první řadě to uslyšíme od Dez Blanchfielda. Lidi, budeme pípat na hashtag #HotTech, takže neváhejte poslat své připomínky, nebo poslat své dotazy prostřednictvím Q & A komponenty webcast konzole, nebo dokonce skrz okno chatu. A s tím, Dez Blanchfield, vezměte to pryč.
Dez Blanchfield: Děkuji, Ericu. Ahoj všichni. Takže se pokusím scénu postavit na 30 000 stopách pohledu na to, co se stalo v posledním desetiletí, a na významné posuny, které jsme viděli - nebo alespoň deset a půl stejně - systémy správy databází a některé dopady z komerčního nebo technického hlediska a některé z trendů, které jsme neskutečně zpožděli, a vedou nás do konverzace, kterou se dnes chystáme kolem tématu.
Můj krycí obrázek je písečná duna a z jejího vrcholu fouká vítr malé kousky písku. V důsledku toho se stane, že písečná duna pomalu přechází z jednoho prostoru do druhého. A je to úžasný jev, kde se tyto masivní hory vysoké 40 a 50 stop vysoké, skutečně pohybují. A pohybují se velmi pomalu, ale jistě se pohybují a jak se pohybují, mění krajinu. A je docela na co se dívat, pokud trávíte nějaký čas v oblasti, kde jsou písečné duny přirozenou věcí. Protože se můžete jednoho dne dívat z okna a uvědomit si, že tato masivní hora písku, malá drobná zrna se ve skutečnosti posunula sama o sobě a že vítr ji pomalu posouvá z jednoho místa na druhé.
A myslím, že v mnoha ohledech to byl svět databázových systémů již nějakou dobu. Až donedávna velmi malý posun v podobě pískových zrn pohybujících se obří horou písku ve formě písečné duny. V průběhu let se do databázových platforem dostalo jen málo posunů a jedná se o docela stabilní a solidní prostředí kolem databázových systémů a platforem prostřednictvím mainframe éry středního rozsahu. Ale později jsme měli nějaké docela významné věci, které se staly našim obchodním potřebám a našim technickým řidičům. Projdu tě těmito.
Domnívám se, že základní koncept databáze, jak jsme to věděli mnoho, mnoho let, a jak jste možná slyšeli v předváděčce, naši dva odborníci, kteří se mnou dnes telefonují, měli celý život v tento prostor a mají naprostou pravdu ve sdílení vychvalovacích práv na to, že tam byli, když to všechno začalo na počátku 80. let. Ale my jsme viděli tento masivní posun v poslední dekádě a trochu, a já se chystám rychle projít, než předám to Dr. Robin Bloor.
Prošli jsme tímto tím, čemu říkám „větší, lepší, rychlejší, levnější“ zážitek. Jak jsem řekl, definice databáze se změnila. Změnilo se také prostředí, ve kterém se databázové platformy musely zabývat výkonem, a technické a obchodní požadavky. Viděli jsme tento nárůst poptávky po řešeních, která budou řešit buď složitější komerční, nebo složitější technické požadavky. A tak vskutku rychlý pohled na to, co to ve skutečnosti znamená, je, že jsme se dostali k jakýmsi 90. letům, a viděli jsme databázovou technologii ovlivněnou zavedením internetu a druh toho, co jsme tehdy nazývali internetem. stupnice. Nemluvili jsme jen o lidech, kteří seděli před terminály, původně o typu terminálů teletypu s vestavěnými fyzickými tiskárnami a 132 sloupcích textu vycházejících v papíru. Pak brzy zelené obrazovky terminály, děrování pomocí klávesnice.
Ale víte, náš svět byl terminály a sériové kabely nebo síťové kabely mluvící k počítačům po dlouhou dobu. Pak přišel internet a tento explozivní růst konektivity, že už nemusíte být připojeni k počítači. Chcete-li se dostat do databázového systému, stačí webový prohlížeč. Databázová technologie se tedy musela dramaticky změnit, aby se vypořádala s rozsahem všeho od základních technologií vyhledávacích strojů, které byly použity k indexování světa, a ukládat index informací, například v měřítku formátu databáze. A lidé jako Google a další poskytli platformu, aby to mohli udělat. A byly vytvořeny všechny nové typy databázového úložiště a dotazování a indexování. A pak jsme měli hudební weby a filmové weby.
A pak v roce 2000 jsme viděli boom dot-com a to způsobilo ještě dramatičtější explozi v počtu lidí, kteří používají systémy, které byly vždy poháněny databází nějaké formy. V této fázi, relační databáze se stále vypořádávají s největší zátěží, jsme je prostě položili na větší cín a my jsme šli do velmi, velmi, velmi velkých systémů střední třídy, které používají platformy Unix od lidí jako IBM a Sun atd. . Dot-com boom jen dělal věci větší a rychlejší z hardwaru, z hlediska výkonu, a došlo k některým významným změnám v databázových strojích, ale z lepší části, to bylo stále to samé, co jsme viděli pro dlouho.
A pak jsme dostali tuto éru webu 2.0, jak na to odkazujeme. A to byl obludný posun, protože najednou jsme potřebovali mnohem jednodušší databázové platformy, a tam muselo být měřítko v horizontální formě. A to byl tak významný posun ve způsobu, jakým jsme přistupovali k myšlence, co je databáze. Podle mého názoru se nám stále daří dohánět. A teď se zabýváme celým tímto quagmirem, a říkám, že s pozitivním zatočením, nikoli negativním významem, tímto quagmirem toho, co nazýváme velká data a obrovskou explozí, a myslím explozi. Tento pobouřivý posun svisle na graf počtu možností, které máme, když mluvíme o databázi, a nějakou formu schopnosti relačního dotazování.
A co je zajímavé, osobně jsem toho názoru, že velká data jsou opravdu jen špičkou ledovce. Máme sklon být trochu nadšeni z toho, jaký dopad mají velká data a typy možností, které máme nyní k dispozici. Máme vše od motorů NoSQL, máme grafové stroje, máme všechny tyto různé typy platforem, na které můžeme házet data a dělat s nimi věci. Dokonce až do bodu, kdy ve skutečnosti jedna z prvních rozhovorů, kterou jsem měl s Ericem Kavanaghem, který je dnes tady s námi, byla kolem rozhovoru týkajícího se věci nazývané Apache Drill, což je projekt s otevřeným zdrojovým kódem, který vám umožňuje dotazovat se data uvnitř modelu různé typy dat: vše od prvotních souborů CSE, které sedí na pevném disku, přes systémy souborů HDFS v měřítku petabyte. A víte, to vám umožní dělat tyto SQL dotazy na strukturovaná a nestrukturovaná data všech druhů vzrušujících rostlin.
Chystáme se vidět, že se „inteligentní budova“ stane věcí, a rádi bychom si mysleli, že máme inteligentní budovy pro správu bezpečnosti a tepla, ale mluvím o inteligentních budovách, které vědí mnohem více o tom, kdo jste a kde jste, když vcházíte dovnitř a děláte všechny druhy úhledných věcí na této úrovni, až po inteligentní města - celé ekosystémy na úrovni města - kteří vědí, jak dělat věci inteligentně. A navíc máme tu neuvěřitelnou věc, o které si nemyslím, že by někdo na světě úplně pochopil, a to je forma internetu věcí. Během posledního desetiletí došlo ke všem těmto různým změnám a trochu, možná zhruba dvě desetiletí, pokud ji zaokrouhlíme nahoru, to podle mého názoru ovlivnilo svět toho, co považujeme za databáze.
Bylo to několik významných věcí, které to dokonce umožnily. Náklady na pevné disky se dramaticky snížily a v mnoha ohledech to umožnilo řídit některé z referenčních architektur, jako je model Hadoop, v tom, že bereme spoustu dat a šíříme je na spoustu pevných disků, a dělat s tím chytré věci. A ve skutečnosti, co se podle mého názoru stalo shardingem relační databáze nebo tradičního modelu jednotky DB. A RAM dostala velmi, velmi levně, a to nám dalo zcela novou příležitost hrát si s různými referenčními architekturami, jako je paměť v paměti, a dělat věci, jako je rozdělování velmi, velmi velkých kusů dat.
A to nám poskytlo tento malý obrázek, na který se nyní díváme, což je diagram, který ukazuje typy platforem, které jsou k dispozici, pokud jste v prostředí velkých dat. A je to velmi, velmi obtížně čitelné a důvodem je jen příliš mnoho informací o tom. Existuje tolik možností pro vytváření, modelování a výrobu způsobů, jak vložit data do databázových systémů jakékoli formy a dotazovat je a dělat tradiční čtení a zápisy. A všichni nejsou v souladu, ve skutečnosti jen velmi málo z nich dokonce splňuje jakýkoli standard standardního stylu, ale stále se považují za databázi. A já vám ukážu pár obrazovek za sekundu, abych vám dal nějaký kontext kolem toho, co tím myslím přechodem od 90. a internetového měřítka na web 2.0, a pak celý růst pomocí velkých dat. Pokud si myslíme, že tento velký datový technologický graf krajiny je vzrušující, protože je v něm spousta možností, podívejme se pouze na jednu klíčovou vertikální.
Pojďme se podívat na marketingové technologie. Zde jsou možnosti pro systémy správy databází nebo pro správu dat pouze v mar-tech prostoru, takže technologie související s marketingem. Teď to bylo v roce 2011, tedy před několika lety; před pěti lety vypadala tato krajina. Pokud se jen krátce vrátím o jeden snímek, vypadá to, že dnešní datové prostředí vypadá v různých značkách a nabídkách, které máme v databázových technologiích. Tak vypadala jedna vertikální před pěti lety, právě v marketingové technologii.
Teď, když se podívám na dnešní názor, vypadá to takto a je to naprosto neproniknutelné. Právě tato stěna značek a možností a tisíce a tisíce kombinací softwaru, který se považuje za součást databázové třídy, dokáže zachytit, vytvořit nebo uložit a načíst data v různých formách. A myslím, že nyní vstupujeme do velmi, velmi zajímavého a statečného času, kdy kdysi jste mohli znát hlavní značky, mohli byste znát pět nebo šest různých platforem od Oracle a Informix, DB2 a tak dále, a být téměř odborník na všechny značky, které byly k dispozici zhruba před 20 lety. Před deseti lety to bylo trochu snazší, protože některé značky padly, a ne všechny značky se dokázaly vyrovnat s rozsahem boomu dot-com a některé společnosti se prostě rozpadly.
Dnes je absolutně nemožné být odborníkem na všechny existující databázové technologie, ať už jde o relační databáze nebo standardní platformy pro správu databází, které jsme poznali v posledních několika desetiletích. Nebo pravděpodobně v případě modernějších motorů jako Neo4j a těchto typů. A tak si myslím, že vstupujeme do velmi statečného světa, kde je k dispozici mnoho možností, a nyní máme platformy ve velkém měřítku na horizontálním základě, buď v paměti nebo na disku. Myslím si však, že pro tvůrce technologií a obchodních rozhodnutí je to náročné období, protože potřebují učinit několik velmi velkých rozhodnutí o technologických komínech, které v některých případech existovaly jen v podstatě měsíce. Osmnáct měsíců není pro některé z více vzrušujících a nových open-source databázových platforem děsivé číslo. A začnou slučovat platformy a stávají se ještě novějšími a vzrušujícími.
Myslím, že dnes budeme mít skvělou konverzaci o tom, jak to všechno ovlivnilo tradiční databázové platformy a jak na to reagují, a typy technologií, které jsou na to hozeny. A s tím na mysli, teď půjdu na Dr. Robina Bloora a získám jeho postřehy. Robine, k tobě.
Robin Bloor: Dobře, díky za to. Jo, tohle je příliš velké téma. Chci říct, že pokud jste si právě vzal jeden z ilustrací, které vám právě ukázal Dez, mohl byste se dlouho bavit jen o jednom z pramenů. Ale víte, můžete jít do databáze - dívám se na databáze, nevím, od 80. let a můžete se na databázi dívat různými způsoby. A jednou z věcí, které jsem si myslel, že budu dělat, prostě hodit do konverzace dnes, bylo mluvit o tom, proč se na úrovni hardwaru vyskytly rušivé věci. A musíte mít na paměti, že na úrovni softwaru se vlastně stalo i strašlivé množství rušivých věcí, takže to není úplný obraz něčeho, je to jen hardwarová věc.
Nechtěl jsem mluvit zvlášť dlouho, jen jsem ti chtěl dát obrázek hardwaru. Databáze byla schopnost získávání dat zahrnující CPU, paměť a disk, a to se dramaticky mění. A důvod, proč to říkám, bylo to, že jsem se naučil porozumět databázi z pohledu toho, co jste vlastně udělali. Víte, existuje rozdíl v latenci mezi daty skutečně na CPU a daty, které se do CPU stahují z paměti, a daty, která se stahují z disku do paměti a přes CPU. A staré architektury databází se to jen snažily vyvážit. Víte, oni jen říkali: „No, jde to velmi pomalu, data na disku uložíme do mezipaměti, takže jsou v paměti. Budeme se snažit to udělat opravdu přesně tak, aby opravdu dobrá část dat, která požadujeme, byla již v paměti. A pošleme data na CPU tak rychle, jak to ve skutečnosti dokážeme. “
A databáze byly psány v dávných dobách stroje jsou psány pro malé klastry. A nyní pro ignoranta paralelismu. Protože pokud se chystáte získat nějaký výkon z klastru, budete muset dělat různé věci paralelně. Paralelismus je součástí hry, nic podobného tomu, jak je tomu nyní. Prostě si projdu, co se stalo.
Za prvé, disk. No, disk už skončil. Co se týče databází, je to skoro konec. Myslím, že existuje celá řada souvislostí s archivací dat, a dokonce i na velmi velkých datových jezerech běžících na Hadoopu je dnes nejhorší spřádací disk pravděpodobně životaschopný. Opravdu, problém s točícím se diskem byl v tom, že rychlost čtení se příliš nezlepšila. A když CPU šel nahoru, Mooreovy zákonné rychlosti, druh řádu, rychlejší každých šest let. A vzpomínka po sobě trochu následovala, pak ti dva rozumně drželi krok s sebou, nebylo to úplně hladké, ale udělali to.
Ale náhodné čtení na disk, kde hlava letí kolem disku, myslím, že kromě jiného je to fyzický pohyb. A pokud děláte náhodné čtení z disku, je to neuvěřitelně pomalé ve srovnání s čtením z paměti, je to jako 100 000krát pomalejší. A docela nedávno, většina databázových architektur, na které jsem se díval v jakékoli hloubce, byla ve skutečnosti právě sériově čtena z disků. Opravdu chcete, tak či onak, jen z mezipaměti ukládat co nejvíce z disku a stáhnout ji z tohoto pomalého zařízení a dát jej na rychlé zařízení. A s tím můžete dělat spoustu chytrých věcí, ale je to trochu za námi.
A disky SSD nebo flash disky jsou skutečně tím, čím jsou, velmi rychle nahrazují rotující disk. A to se zase úplně změní, protože způsob, jakým jsou data organizována na disku, je uspořádán podle toho, jak disk funguje. Je to vlastně o hlavě pohybující se po spřádací ploše, vlastně více hlavách pohybujících se po více spřádacích plochách a shromažďování dat v průběhu jejich pohybu. Jednotka SSD je jen blok věcí, které si můžete přečíst. První věc je, že všechny tradiční databáze byly zkonstruovány pro rotující disk a nyní se upravují pro SSD. Nové databáze mohou pravděpodobně - kdokoli, kdo právě píše novou databázi, pravděpodobně může ignorovat rotující disk, nemyslet na něj vůbec. Ale Samsung, hlavní výrobce SSD, nám říká, že SSD jsou ve skutečnosti na Mooreově zákonné křivce.
Myslím, že už byli asi třikrát nebo čtyřikrát rychlejší než rotující disk, ale nyní se v podstatě každých 18 měsíců zrychlí. Dvojnásobná rychlost a 10krát rychlostí až asi šest let. Pokud by to však bylo právě to, není to tak, jak vám řeknu za chvíli. Spinning disk se samozřejmě stává archivačním médiem.
O paměti. Nejdříve první, RAM. Poměr CPU mezi RAM na CPU se neustále zvyšuje. A to samozřejmě, svým způsobem, přináší mnohem vyšší rychlost, protože akry paměti, které nyní můžete mít, mohou ukládat mnohem více. Co to vlastně dělá, je to druh, který snižuje tlak na aplikace typu MLTP nebo na aplikace s náhodným čtením, protože je jednodušší je uspokojit, protože nyní máte spoustu paměti, a tak můžete ukládat do mezipaměti vše, co je pravděpodobně bude načtena do paměti. Ale narazíte na problémy s větší hromadou dat, takže velká data ve skutečnosti nejsou tak jednoduchá.
A pak máme Intel s 3D Xpoint a IBM s tím, čemu říkají PCM, což je paměť s fázovou změnou, dodávají něco, o čem věří, že - je to alespoň 10krát rychlejší než současné SSD, a věří, že to dostane velmi blízko tomu, aby byla stejná rychlost jako RAM. A samozřejmě je to levnější. Takže dříve jste měli tuto databázovou strukturu CPU, paměti a disku a nyní se přesuneme ke struktuře, která má čtyři vrstvy. Má CPU, paměť nebo RAM, a pak tento druh rychlejší než SSD paměti, která je ve skutečnosti energeticky nezávislá, a pak SSD. A tyto nové technologie jsou energeticky nezávislé.
A je tu HP memristor, který ještě není, víte, protože to bylo oznámeno asi před sedmi lety, ale ještě se neobjevilo. Ale zvěsti, které slyším, jsou, že společnost HP trochu změní hru s pamětníkem, takže máte jen novou paměťovou situaci. Není to, jako bychom měli rychlejší věci, jako bychom měli úplně novou vrstvu. A pak máme fakt, že SSD přístup, můžete si ho přečíst paralelně. Nemůžete číst rotující disk paralelně, kromě toho, že máte spoustu různých rotujících disků. Ale blok SSD, můžete skutečně číst paralelně. A protože to dokážete číst paralelně, jde to rychleji než jeho jednoduché rychlosti čtení, pokud ve skutečnosti nastavíte více procesů napříč různými procesy na jednom CPU a máte na to pouze SSD.
Odhaduje se, že tím můžete dosáhnout téměř rychlosti RAM. A vše, co to říká, je, že budoucnost architektury paměti je nejasná. Myslím tím, že realita je taková, že různí dominantní prodejci, ať už se ukáže kdokoli, pravděpodobně určí směr hardwaru. Ale nikdo neví, kam v tomto okamžiku jde. Mluvil jsem s některými databázovými inženýry, kteří říkají: „Nebojím se toho, co se děje, “ ale nevědí, jak je optimalizovat z get-go. A vždycky jsi to udělal, takže je to zajímavé.
A pak je tu CPU. No, vícejádrové procesory nebyly jen vícejádrové procesory. Máme také značné objemy mezipaměti L1, L2 a L3, zejména L3, což je až, nevím, desítky megabajtů. Můžete tam dát hodně, víte. A proto můžete skutečně použít čip jako médium pro ukládání do mezipaměti. Takže to změnilo hru. A určitě, zpracování vektorů a komprese dat, řada prodejců to vlastně udělalo, tahalo tyto věci do CPU, aby to všechno u CPU probíhalo mnohem rychleji. Pak zjistíte, že CPU s GPU jsou opravdu dobré v akceleraci analytiky. A jsou opravdu docela dobře v určitých druzích dotazů, záleží jen na tom, jaký je váš dotaz.
Můžete buď vytvořit desky s CPU a GPU, nebo jak AMD právě dělá, vytvoříte něco, co se nazývá APU, což je druh manželství s CPU a GPU; má na to oba druhy schopností. Takže to je jiný druh procesoru. A pak nedávné oznámení Intelu, že se chystají dát FPGA na čip, takový druh mi udělal hlavu. Přemýšlel jsem: „Jak se to stane, co se stane?“ Protože pokud máš možnost CPU, GPU a máte možnost CPU, FPGA - a mimochodem, pokud opravdu chcete, můžete na stejnou desku umístit CPU a GPU a FPGA. Nevím, jak byste vlastně něco takového provozovali, ale vím o společnostech, které dělají takové věci, a dostávají velmi, velmi rychlé odpovědi na dotazy. To není něco, co bude ignorováno, je to něco, co budou používat zavedení dodavatelé a možná i noví prodejci. DBMS byly vždy paralelní, ale nyní paralelní možnosti právě explodovaly, protože to vám to umožní paralelizovat s tím, s tím, s různými způsoby.
A konečně, měřítko nebo měřítko? Zvětšení je opravdu nejlepší řešení, ale pro jednu věc. Získáte mnohem lepší výkon uzlu, pokud dokážete absolutně optimalizovat výkon procesoru a paměti na disku v jednom uzlu. A budete používat méně uzlů, takže to bude levnější, že? A bude snazší spravovat. Bohužel je to design závislý na hardwaru a při změnách hardwaru se to stává stále méně, pokud se vaši inženýři nebudou moci spouštět tak rychle, jak se mění hardware. A máte problémy s pracovní zátěží, protože když se rozšiřujete, děláte různé předpoklady o tom, co bude pracovní vytížení dělat.
Pokud změníte měřítko, to znamená, že pokud vaše architektura zdůrazňuje měřítko před rozšířením - ve skutečnosti je musíte udělat obě, stačí jen zdůraznit jednu. Pak získáte lepší výkon sítě, protože architektura se s tím vypořádá. Z hlediska hardwaru to bude dražší, protože bude existovat více uzlů, ale bude zde méně problémů s pracovní zátěží a flexibilnější design.
A jen jsem si myslel, že to hodím dovnitř, protože pokud skutečně přemýšlíš o všech hardwarových změnách, jen jsem ukázal prstem, a pak jsi přemýšlel o tom, jak budeš na tomhle měřítku? Pak si uvědomíte, že databázoví inženýři jsou podle mého názoru přinejmenším dobře placení. Pokud tedy uvažujete pouze o hardwarové vrstvě, jsou problémy s databází jasné. Teď to předám Bertovi, který nás nutí, abychom se všichni cítili vzdělaní.
Eric Kavanagh: To je vše! Bert?
Bert Scalzo: Děkuji vám. Dovolte mi dostat se přímo do těchto snímků. Mám spoustu diapozitivů, kterými mohu projít, takže na několika z nich mohu jít poměrně rychle. Budeme mluvit o tomto „Forward Momentum: Moving Relational Beyond Traditional“. Už to není databáze vašeho otce. Věci se změnily a jak řekl předchozí řečník, v posledních šesti až sedmi letech se krajina radikálně změnila.
Já sám dělám databáze od poloviny 80. let. Napsal jsem knihy o Oracle, SQL Server, benchmarkingu a několika dalších věcech. "Svět se mění velmi rychle." Big už nebude bít malý. Bude to rychlé bití pomalu. “Přidal jsem„ přizpůsobit se “. To bylo od Ruperta Murdocha. Opravdu věřím, že to bude pravda. Nebudete moci dělat databázové věci tak, jak jste to dělali před 10, 15, 20 lety. Musíš to udělat tak, jak to chce firma teď.
Budu se snažit zůstat trochu obecným v tom, co prezentuji, ale většina funkcí, o kterých mluvím, najdete v Oracle, najdete v SQL Serveru, MySQL, MariaDB a některých dalších velkých hráči. Revoluce relační databáze, opět trochu souhlasím s předchozími řečníky. Pokud se podíváte přímo kolem roku 2010, šli jsme z červeného závodního vozu do žlutého závodního vozu. Došlo k významné změně a do roku 2020 se domnívám, že uvidíte další radikální změnu. Jsme ve velmi zajímavém čase.
Nyní je tento snímek klíčem, proto jsem tam dal klíč. Probíhá celá tato změna a na levé straně mám technologii a na pravé straně obchod. A otázkou je, který z nich způsobuje který a který z nich podporuje? Máme všechny tyto hardwarové změny: disky klesají, velikost disku stoupá, nové typy disků, takže to byly pokryty dřívějšími reproduktory. Cena paměti klesá, všechny tyto novější verze databází. Ale na pravé straně máme ochranu a dodržování údajů, skladování dat, obchodní zpravodajství, analýzy, povinné uchovávání dat. Obě strany rovnice jsou hnací a obě strany rovnice budou využívat všechny tyto nové funkce.
Nejprve máme náš typický spřádací disk SAS, nyní je to až 10 terabajtů. Pokud jste ještě neviděli, Western Digital, HGST má to, čemu říkají jejich heliová jednotka, která právě teď stoupá na asi 10 terabajtů. Náklady na točící se kotouč jsou docela nízké. Jak již bylo zmíněno dříve, můžete získat pevné disky až o dva terabajty, ale Samsung má již brzy k dispozici 20-terabajtovou jednotku. Náklady se stávají rozumnými. Jedna věc, kterou budu mluvit o ostatních ne, je koncept flash disků. PCIe, to je PCI Express, versus NVMe, možná jste nebo nemuseli slyšet o tomto, energeticky nezávislém expresním paměti. V podstatě bude NVMe náhradou za SAS a SATA a je to opravdu komunikační protokol než cokoli jiného. Ale tyto disky mají nyní až tři terabajty.
Možná jste také viděli, že některé jednotky SAS nyní přicházejí s konektory U.2, což je něco jiného než konektory SAS nebo SATA, které podporují NVMe se standardním diskem - disk musí samozřejmě také podporovat. A pak SATA s konektory M.2 a ty začínají získávat NVMe. Ve skutečnosti existují prodejci notebooků, kteří nyní prodávají notebooky, které obsahují flash disk NVMe, a tyto věci budou křičet ve srovnání s technologií, kterou jste dříve používali.
Mnoho lidí neví, jaké jsou všechny tyto různé záblesky. Pokud se podíváte do pravého dolního rohu, jedná se o příklad M.2. Můžete říci: „No jo, vypadá to hodně podobně jako jednotka mSATA nalevo od ní.“ Ale jak vidíte, v kolících jsou dvě mezery oproti jedné a je o něco větší. A také, M.2 může přijít ve třech různých velikostech.
A pak PCI Express flash a NVMe flash. Nyní je NVMe flash také PCI Express, ale PCI Express je obvykle stále algoritmus řadiče SAS nebo SATA, který byl napsán pro rotující disk, a NVMe jsou algoritmy nebo techniky, které byly napsány speciálně pro flash. A znovu, všechny uvidíte.
NVMe nabízí poměrně málo věcí. Myslím, že dvě největší vylepšení jsou, v pravém horním rohu, je latence snížena až o 70 procent. Vlastně jsem viděl ještě vyšší. Pokud se navíc podíváte do pravého dolního rohu, když váš operační systém mluví s diskem NVMe, projde mnohem méně úrovní softwaru. V podstatě projdete ovladačem NVMe, který je nyní součástí operačního systému, a mluví přímo k médiu. Existuje mnoho důvodů, proč tato technologie radikálně změní svět databází.
A mnohokrát lidé řeknou: „No, jak rychle je NVMe?“ Víte, staré dobré časy, zpět v roce 2004 a dříve, jsme byli nadšeni, když jsme měli Ultra-320 SCSI, 300 megabajtů za sekundu. Dnešní rychlosti, mnoho z vás je pravděpodobně na vlákno nebo InfiniBand, a ty druh vrcholu. NVMe tam vpravo, začíná u konce současných technologií. To, na co se zaměřuji, je, že PCI Express 3.0 s osmipruhovým spojem začíná na téměř 8000 a bude stoupat, jak dostaneme novější verze PCI Express, verze čtyři a tak dále. NVMe nemá kam jít, kromě nahoru.
Jaké jsou některé změny v databázi? Nyní v pravém horním rohu snímků jsem uvedl obchodní důvody, které si myslím, že se technologie ukázala. V tomto případě z důvodu skladování dat a regulačních důvodů pro povinné uchovávání dat začínají databáze nabízet komprimaci. Nyní některé databáze nabízejí kompresi jako doplněk, jiné ji nabízejí jako vestavěný standard, řekněme podnikové vydání své databáze, a přesto některé databáze, jako je tomu v Oracle, mohou mít dokonce ještě lepší verzi komprese, která je v, řekněme, jejich platformě Exadata, takže vlastně postavili hardware, který může podporovat velmi specializovanou kompresi, a že například jeden v Exadata získá 40x kompresní poměr, takže je velmi významný. A myslím, že se jedná o povinné uchovávání dat, lidé prostě chtějí data déle. Podniky, aby mohly provádět analýzy a BI, potřebují data za posledních 5, 10, 15 let.
Nyní byla další funkce, která se začala objevovat právě kolem období 2008, 2009, rozdělení. Znovu to najdete v databázích jako Oracle, SQL Server a v obou z nich musíte za to zaplatit. V Oracle musíte koupit možnost rozdělení disku a na SQL Serveru musíte být v edici datového centra. Je to vaše tradiční technika dělení a dobývání a co děláte, je to, že máte nahoře koncept logického velkého stolu a když se dostane na disk, ve skutečnosti se rozdělí na kbelíky. A vidíte, že tyto skupiny jsou uspořádány podle některých kritérií pro oddělení, obvykle odkazovaných nebo nazývaných vaše funkce rozdělení, a pak také můžete na některých databázových platformách rozdělit podskupiny a můžete jít ještě dále.
Opět si myslím, že to posunulo jak ukládání dat, tak povinné uchovávání dat, a v některých z těchto databází můžete mít až 64 000 oddílů a v některé jiné databáze věřím až 64 000 dílčích oddílů. To vám umožní rozdělit vaše data na zvládnutelné kousky. Rovněž rozdělíte indexy; je to možnost, nemusíte, ale můžete také rozdělit své indexy. Jedním z důvodů, proč to udělat, může být to, že máte posuvné okno dat. Chcete zachovat data za 10 let, ale aby bylo možné vynechat indexy, aby se spustilo dávkové zatížení dnes, nechcete vynechat indexy na každém jednotlivém řádku, pouze na řádcích, které jsou v aktuálním bloku. Dělení diskových oddílů je ve skutečnosti velmi dobrým administrativním nástrojem, i když většina lidí si myslí, že jeho velkou výhodou je vyloučení diskových oddílů ve vašich plánech, a proto urychlení vašich dotazů. To je opravdu druh námrazy na dortu.
Nyní jste pravděpodobně slyšeli o stříhání a pravděpodobně si myslíte: „No, proč jste sem vložili tento snímek?“ Toto je jedno z těch NoSQL - to je jedno z těch prostředí typu Hadoop. Oracle 12c vydal dva, což ještě není G8, ale které se v něm zobrazuje nebo zobrazuje náhled, ve skutečnosti obsahuje střep. Budete mít tradiční databázový systém, jako je Oracle, a budete se moci stříhat jako vy v modelu Hadoop, takže budete mít další techniku rozdělení a dobytí, která vám rozdělí vaši tabulka řádek do seskupení podle uzlu, a to bude - stejně jako to, co vidíte v některých vašich databázích NoSQL. A vlastně MySQL, můžete to opravdu udělat pomocí jedné z jejich technik klastrování, ale jde o tradiční databázi a myslím, že Microsoft nebude chtít zůstat pozadu. Tyto dvě hry skoková žába spolu navzájem po celou dobu, takže bych očekával, že uvidím stříhání možná v další verzi serveru SQL.
Správa životního cyklu dat, opět povinné uchovávání dat, ale také pro business intelligence a analytics. Skutečně se jedná o techniku rozdělení a dobytí a DBA to obvykle dělají ručně, a to: „Uchovám letošní data na rychlých discích, loňská data na mírně pomalejších discích, možná půjdu abych si udržel poslední dva roky před tím na ještě pomalejších discích, a pak budu mít nějakou archivační metodu. “Obvykle se to už ne nahrává, je to typicky - máte nějaký druh síťového úložiště nebo nějaké zařízení, které má hodně úložiště a je, jak víte, nákladově efektivní, ale stále se to točí disk.
Nyní tedy můžete skutečně - jak na Oracle, tak na SQL Server - zakoupit možnost, kde definujete pravidla, a to se děje automaticky na pozadí. Už nemusíte psát skripty, nemusíte nic dělat. A pokud jste viděli SQL Server 2016, který právě vyšel první v červnu, je zde nová funkce, která se nazývá „Stretch Databases“, což v zásadě umožňuje provádět - v pravém dolním rohu - můžete se přesouvat z více vrstev přímo do cloudu a znovu je to funkce, která je zabudována do databáze, stačí říct něco jako: „Pokud jsou data starší 365 dní, přesuňte je do cloudu a, víte, udělejte to automaticky pro mě.“
Toto bude opravdu skvělá funkce, ve skutečnosti si myslím, že to může být to, co uvidíme v budoucnu, což znamená, že budete mít hybridní databáze, kde si ponecháte některé místní a některé v cloudu. Předtím si lidé mysleli: „Ach, budu dělat buď na premise, nebo budu dělat na cloudu.“ Nyní vidíme manželství obou technologií tímto hybridním způsobem. Myslím, že to bude docela velké a Microsoft se tam dostal jako první.
Redukce je způsobena ochranou údajů a dodržováním předpisů. Teď za starých dobrých časů jsme mohli říci: „Hej, vývojáři aplikací, když to zobrazíte ve zprávě, když to zobrazíte na obrazovce, zde je několik bezpečnostních věcí, které byste měli zkontrolovat a prosím, víte, pouze zobrazte data měli by vidět nebo maskovat nebo redigovat data, která nemají vidět. “No, jak je obvyklé, když je vytlačíte do aplikace, nedělá se to na jednom místě, takže se to dělá jinak, nebo ne Na některých místech se to nedělá. A tak nyní máte tuto schopnost ve svých databázových systémech.
Nyní v serveru SQL Server 2016 je tato funkce integrována, takže to není volitelná nákladová položka, která má být dosud součástí datového centra. a v Oracle 12 si musíte koupit doplněk pro správu životního cyklu, ale to je něco nového a opět je to poháněno obchodem. A zejména proto, že nyní uchováváte tolik dat a děláte data mining, takže BI a analytici, musíte vědět, kdo přistupuje k jakým datům a ujistit se, že mají pouze možnost vidět, co mohou je vidět.
Stejně tak se znovu podívejte na to, ochrana dat a dodržování předpisů. Zjistíte, že mnoho databázových systémů nyní staví komprimaci, nebo je mi líto, šifrování přímo do databáze a co je důležité o tomto šifrování, pokud se podíváte na šipku dolů a šipku nahoru na diagramu, který jej zapíše na šifrovaný disk a poté jej načte zpět do paměti a dešifruje ji. To je vlastně jeden model, je tu další model, který byste, vlastně, dělali, pouze když komunikuje tato data přes síť do skutečné klientské aplikace.
V takovém případě by dokonce na databázovém serveru v paměti mohl být šifrován a dešifrován, pouze pokud by byl odeslán do klientské aplikace. Jsou zde dva různé modely a najdete je v databázích, a ve skutečnosti jednou z databází, která právě přidala tuto, byla MariaDB ve své verzi 10.X; Věřím, že teď jsou na 10.1 nebo 10.2. A skutečně jsem provedl nějaké benchmarking pro toto šifrování, a abych získal toto šifrování, zažil jsem jen asi 8 procentní snížení propustnosti nebo rychlosti. V testech srovnávání to šifrování příliš nezpůsobilo, a proto je to velmi užitečná funkce.
Nyní jsme se již zmínili o flash paměti a SSD a podobných věcech. Jednou z funkcí, které máte v systémech Oracle a SQL Server, kterou si mnoho lidí neuvědomuje, je, že si můžete vzít flash nebo SSD, který je na vašem databázovém serveru, a můžete do databáze říci: „Použijte to, jako by to byla paměť. Zacházejte s RAM jako s preferencemi, ale předstírejte, že se jedná o pomalou paměť a používejte ji jako rozšířenou mezipaměť. “Nyní v SQL Server 2014 to vyšlo a nazývalo se„ rozšíření vyrovnávací paměti “, je to zdarma. V Oracle vyšlo v 11g R2 a nazývalo se to „Database Flash Cache“ a bylo tam také zdarma.
Moje rada je však tuto funkci pečlivě otestovat. Pokaždé, když zvětšíte mezipaměť, když jdete na vyhledávání, to trvá déle. Pokud vložíte tří terabajtovou flash kartu a řeknete do databáze: „Přidejte si ji do své paměti, “ můžete skutečně zjistit, že se něco zpomalilo kvůli času podívat se a vidět, že je ve flashu, je to špinavá nebo čistý? Je zde bod snižujícího se návratu. Moje rada je znovu vyzkoušet, zjistit, co funguje pro vás, ale znovu, je to ve vaší databázi a v případě Oracle, v SQL Server i Oracle, je to už pár let.
A to nás přivádí k pradědovi, který byl databázemi v paměti, a to proto, že ceny databází klesly. Dalším důvodem, proč byste si pravděpodobně mysleli, že k tomu došlo, je spousta analytiků, která vyžadují, aby byla data velmi rychle přístupná, a proto musí být v paměti. Uvědomte si, že algoritmy, které databáze používají pro přístup k těmto datům, jejich kompresi, šifrování, ukládání, víte, v některých případech mohou některé databáze pokračovat v ukládání paměti jako řádek.
V některých případech to mohou některé databáze rozdělit na sloupec orientovaný a důvod, proč to dělají, je to, že získají mnohem vyšší úroveň komprese, někde kolem 11 až 12X uložením v pořadí sloupců versus řádek. Toto se poprvé objevilo v SQL Server 2014, jmenovalo se „Hekaton“. V serveru SQL Server 2016 se to radikálně zvýšilo, uvidí ho odkazované pod různými jmény a vyšlo v systému Oracle 12c; Říkám tu druhé vydání, ne R2. Existovaly dvě různá vydání Oracle 12c, 12.1.0.1 a 12.1.0.2. Jedná se o druhé vydání R1 verze databáze.
A způsob, jakým ho definujete, je objekt v paměti podobný v obou databázích. Zde vidíte v pravém horním rohu, vytvářím SQL Server a vidíte, že říká, že optimalizace paměti a trvanlivost jsou pouze schémata. Nebudu se zabývat všemi těmito významy syntaxe, a ve Oracle je to vlastně ještě jednodušší, stačí změnit tabulku a říct, že v paměti nebo ne, a můžete to změnit. Dnes mohu říci, že je to v paměti a zítra to není, a tak je velmi flexibilní.
Udělal jsem několik testů na Oracle s tabulkami v paměti, měl jsem několik testů, které trvalo téměř 40 minut, než jsem tam běžel, v horním řádku. Nyní je důležité, když jsem se dostal na spodní dva řádky, prodloužil jsem běhový modul nebo ho snížil, řekněme, přibližně na pět minut, a když jsem se podíval na kompresní faktor, data v paměti byla ve skutečnosti 3, 6 na 4, 6 krát menší. To je důležité, protože v tomto případě jsem používal formát orientovaný na sloupce a jeho kompresi. A hádejte co? Vlastně jsem si vybavil téměř čtyřikrát až pětkrát více dat v mé paměti. Nejen, že jsem získal výhodu in-memory, výhodu sloupcově orientovaného, ale také výhodu mnohem více dat - až pětkrát více dat v paměti cache, takže je to docela mocný postup. Znovu Oracle a SQL Server, chcete se na ně podívat, jsou to opravdu skvělé funkce. A s tím si myslím, že to otevřu otázkám.
Eric Kavanagh: No, Bert, v první řadě jsi byl velmi nesobecký ve všech těch úžasných vzděláních. Mohl byste si na chvíli promluvit o tom, co děláte? Protože máte nějakou aktivační technologii, která může usnadnit to, o čem jste mluvili. Jen chvilku si povídejte o tom, co děláte, a pak pojďme Dez a Robina do rovnice.
Bert Scalzo: Jo, pracuji pro společnost s názvem IDERA. Jsme v Texasu, sídlíme v Houstonu a teď vlastně sedím v Austinu, ale sídlím v Dallasu. Vyrábíme databázové nástroje a vytváříme databázové nástroje, které vám pomohou vyřešit problémy. Tento problém by mohl být něco tak jednoduchého jako produktivita. V tomto případě máme nástroj s názvem DBArtisan, který vám umožní provádět úkoly správy databáze a je to jeden nástroj, který vám umožní spravovat 12 různých databázových platforem. Dokážu spravovat SQL Server, umím spravovat Oracle, umím spravovat MySQL, DB2, Postgres a používám jeden nástroj, jeden spustitelný soubor, jeden návrh GUI a jednu konzistentní sadu pracovních toků. Vyrábíme také nástroje pro zajištění souladu, máme nástroj s názvem SQL Compliance Manager, který vám pomůže splnit vaše požadavky na dodržování předpisů. Další nástroj s názvem SQL Security, takže se snažíme vytvořit nástroje, které vám pomohou být efektivní a efektivní, a co je opravdu pěkné, pokud jdete na náš web, máme tam spoustu freewaru, takže pokud nic jiného, jděte ke stažení - Myslím, že máme asi 20 nebo 25 freewarů. Tam jsou některé opravdu dobré freeware věci, jako je tam SQL Server a Windows Help Check, která se v podstatě podívá na to, co máte, a řekne vám, zda máte nějaké problémy nebo věci a je to úplně zdarma.
Eric Kavanagh: A ty opravdu …
Bert Scalzo: Rozhodně první věci -
Eric Kavanagh: Mluvíte dnes o heterogenitě na trhu, kdysi existovala jakási univerzální rovnice, která si vlastně vzpomínám na rozhovor s doktorem Michaelem Stonebrakerem v roce 2005, když pokračoval velký tlak na verdikt ve sloupci orientovaném databázovém hnutí a mluvil o tom, jak univerzální relační model vládl po mnoho let, a předpovídal, že se to všechno změní, a chlapec měl pravdu že. Nyní máme toto opravdu rozmanité a zajímavé prostředí se spoustou různých možností a příležitostí, ale potřebujete někoho, kdo to všechno zvládne, a zdá se mi, že vaše společnost se zaměřuje velmi důrazně na řešení matematických problémů, takže je aktivátorem záhlaví heterogenity, že?
Bert Scalzo: Rozhodně. Myslím, že vždy budou DBA, kteří říkají: „Nechci používat nástroj GUI, dělám všechno se skripty, “ víš? Myslí si, že jsou nadřazeným typem DBA, a to je v pořádku, ale pro většinu z nás lidí chceme jen udělat práci a - víte, používám Microsoft Word k psaní svých dokumentů. K e-mailu používám aplikaci Microsoft Outlook. Myslím, že mám nástroje pro plnění úkolů. Budujeme stejný druh konceptu, vytváříme nástroje pro správce databází a vývojáře, abychom jim pomohli soustředit se na to, co chtějí dělat, a ne na to, jak to musí udělat.
Eric Kavanagh: To dává smysl, ale dovolte mi, abych se obrátil k našim odborníkům a lidé se mohou bez obav ponořit. Od publika přichází několik komentářů. Možná, Dez, pár otázek a Robin pár otázek?
Dez Blanchfield: Jasně. Jedna z prvních otázek, které na vás chci hodit, vzhledem k obrovskému rozpětí zkušeností, které vidíte, vidíte okamžik, kdy se něco z toho zpomalí? Nebo si myslíte, že jsme opravdu jen na začátku této neustálé změny růstu? Myslím, že jeden z největších problémů, kterým společnosti čelí, a poté lidé, kteří se snaží podporovat technologii poskytovanou těmto společnostem, aby mohli provozovat své podnikání, je, že míra změn je tak dramatická, že prostě nedokážou držet krok se všemi různé funkce a software a systémy a rámce a architektury a nový kód přicházejí, a poté hardware pod tím, vidíte okamžitou rychlost zpomalení vůbec okamžitě zpomalit? Chci říct, že s celou řadou IDERA pracujete s tak širokou škálou platforem, chystáme se brzo zpomalit, nebo jsme na takovém bláznivém nákladním vlaku už dlouho?
Bert Scalzo: Myslím, že jsme na prvních 20 procentech této růstové křivky a máme před sebou dlouhou cestu a jsou tam dvě věci, které ji tlačí. Tato technologie se neustále vyvíjí. Zmínili jste se o některých nových typech paměti, které vyjdou, bude to fantastické. Společnost Samsung bude mít brzy k dispozici 20-terabajtový flash disk. To změní věci. Máme všechny tyto NoSQL a cloudové databáze, tohle prostě bude dál. Jedna věc, která je tak trochu zábavná, je, když se podívám na databáze, jako je Oracle a SQL Server a některé z ostatních, už to opravdu nejsou relační databáze. Dokážu do Oracle vložit nestrukturovaná data a přesto dodržovat ACID. Kdybys mi to řekl před 20 lety, řekl bych, že máš drogy.
Dez Blanchfield: Ano, ano, jsou v pohodě. Dokonce i teď ty motory, které mají docela pěkné nika vertikální jako GIS, prostě lepší než nativní schopnost nyní. Uváděli jste několik skvělých komentářů k výzvám, kterým DBA čelí, a různým dobám DBA, které doufáme, že uvidíme všude, ale jak vypadá svět s takovou vrstvou podnikání, se kterou se zabýváte? Chci říct, jsou to lidé, kteří používají různé platformy od vašeho diagnostického manažera, k nástrojům inventáře, a až k řevu k defraggingu, jak se DBA vyrovnávají s touto změnou a jak to nějak - víte, co dělají s vašimi nástroji, aby se vypořádali s tímto významným posunem v jejich krajině?
Bert Scalzo: No, vrátím se téměř před 20 lety, pak řeknu, že DBA řeší velmi specifickou roli v organizaci. Obvykle pracují s jednou databázovou platformou, možná se dvěma, a spravovali relativně malý počet databází. Nyní rychle vpřed k dnes a správci databáze, on vlastně bude vědět 10 databázových platforem. Řídí, a to není vtip, v některých případech tisíce databází; to je více na světě SQL Server nebo MySQL. Ale stále ve světě Oracle mohli spravovat stovky databází. A tak mají všechny tyto nové funkce vyjít, mají všechny tyto nové platformy a mají všechny tyto databáze, za které jsou zodpovědné. Hledají nástroje, které umožní jejich produktivitu a také jim pomohou naučit se některé věci.
A já vám ukážu příklad - pokud chci rozdělit tabulku, je to docela nejasná syntaxe, a pokud ji chci rozdělit, syntaxe je ještě obtížnější. Vím, co chci dělat, chci vytvořit kbelíky. Pokud mám nástroj jako DBArtisan, který říká: „Hej, tady je pěkná obrazovka, která vám umožní soustředit se na to, co se snažíte, spíše než na to, jak se to snažíte, a mimochodem, zatlačte na Až budete hotovi, ukážte tlačítko SQL a my vám ukážeme, co to bylo SQL, abyste se mohli začít učit a zvládnout to. “
DBA zjišťují, že nástroje, které jim pomáhají zvládnout práci, ale také jim pomáhají naučit všechny tyto nové věci, které používají, a to samé by bylo pravda - řekněme, že jsem chlap Oracle a jdu do MySQL a řekneme: "Dobře, vytvořte databázi, DBArtisane." Nyní mi ukážu SQL, protože mě zajímá, jaké to je vytvořit databázi na MySQL a právě jsem se naučil syntaxi. “A tak jim nejen pomáháme pracovat v celé databázi, ale také je vzděláváme napříč databází.
Dez Blanchfield: Ještě zajímavější je, když se dostanete k některým z modernějších - nebo ne modernějších, to není fér říkat - ale jednou za čas je databáze databáze. V dnešní době vidím všechno, o čem tam mluvíte, s další výzvou, kterou technologické balíčky, které tradičně vidíme od prodejců a jakési open source, a také, že jsou dobré. Nejen, že se zabývají databázovými stroji a jazyky dotazů, ale také se zabývají datovými typy, strukturovanými a nestrukturovanými, víte, výzvou, která se musí zabývat vším od vzdáleného konce spektra multi-petabyte HDFS prostředí pro malé malé kontejnery a paketové soubory a různé formáty souborů protokolu.
A myslím si, že to je něco, co nyní vidíme, kde prostě žádná lidská bytost, bez ohledu na to, jak moc nadšenci, superwoman, ať už si myslí, že jsou cokoli, fyzicky, prostě nemohou mentálně zvládnout tu míru změny a rozsah variací. Myslím, že sada nástrojů, které nyní nabízíte, se dostane do bodu, kdy bude téměř na výchozí sadě mnoha způsobů, takže nemůžeme spustit databázová prostředí, která jsme dostali bez nich, protože jsme jen fyzicky nemůže na ně hodit tolik těl. Vaše prezentace se mi opravdu líbila. Chystám se předat doktorovi Robin Bloorovi, jsem si jistý, že má spoustu otázek, které na vás hodí.
Robin Bloor: Dobře. Určitě mám otázky. Berti, nevím, kam jdeš - před pár dny jsem měl opravdu zajímavý rozhovor, kde mi někdo začal vyprávět o nejnovější ochraně dat DU a zdálo se mi z toho, co říkali, že to bylo neuvěřitelně drakonický, pokud jde o věci, na kterých trvali. Přemýšlel jsem, jestli jste se na to skutečně podíval; je to něco, s čím jsi obeznámen?
Bert Scalzo: Rozhodně. To jo.
Robin Bloor: 2016, dobře, řekněte nám o tom.
Bert Scalzo: A vlastně …
Robin Bloor: Hluboko zajímavé.
Bert Scalzo: Vlastně jsem chvíli pracoval pro dodavatele blesků, v jejich databázové oblasti, pomáhám jim vytvářet flash produkty pro databáze, a mohu vám říci, že drakonici jde až dolů. Mám na mysli to, že pokud si pamatujete můj jediný snímek, řekl jsem v některých databázích šifrování, ale vloží jej do paměti serveru a v některých databázích šifrování - stále je šifrováno v paměti serveru, pouze se dešifruje, když dostane se klientovi. Dobře najdete také některé z těchto vládních standardů, zejména ministerstvo obrany nebo armádu zde v USA, ale i celou cestu dolů na úroveň blesku a chtějí vědět nejen to, že podporujete šifrování a dešifrování váš hardware, ale že když někdo ukradl žetony, které - víte, vytáhl je z věci, ze serveru, že to, co je tam, je šifrované, a tak i když mají úložiště, nemůže to být a že by celou cestu dolů ke skutečné - nikoli k samotné části blesku, ale dolů k jednotlivým čipům. Chtěli vědět ten čip po čipu, všechno bylo zašifrováno.
Robin Bloor: Páni. Myslím, že existuje spousta věcí - víte, myslím, že to byl jen jeden nebo dva diapozitivy, o kterých jste se zmínil, ale bylo to něco, scénář, o kterém si myslím, že je opravdu zajímavý. Například při redigování informací musí být trochu chytřejší než jen maskování různých oblastí, protože zejména pomocí strojového učení v dnešní době můžete provádět deduktivní věci, které vám umožňují vyzařovat informace, které jste dříve nemohli vypozorovat.
Pokud se snažíte chránit, řekněme informace o zdraví, pak je to v USA velmi, velmi drakonická pravidla týkající se zdravotních informací, ale ve skutečnosti můžete pomocí různých technik strojového učení často zjistit, kdo je někdo lékařský ve skutečnosti je. Jen jsem přemýšlel, jestli o tom máte co říct, protože si všichni myslí, že je to zajímavá oblast.
Bert Scalzo: Jo, absolutně, a já to jen používám jako příklad, nesnažím se říci, že jedna databáze je lepší než jiná, ale je to velmi dobrý příklad toho, co jste právě požádali. V Oracle, pokud mi například není dovoleno vidět řadu dat, jako bych neměl dovoleno vidět lékařský záznam Johna Smitha. V Oracle, pokud řeknu: „Vyberte ten záznam, “ budu zablokován nebo budu mít možnost vidět, co mohu vidět a bude upraven. A pokud řeknu: „Vyberte hvězdu účtu z tabulky, kde se rovná John Smith, “ dostanu nulu.
Na serveru SQL Server může provést redakci, ale má některé díry. Pokud řeknu: „Vyberte hvězdu účtu z tabulky, kde se rovná Johnu Smithovi, “ ve skutečnosti dostanu zpět jednu, takže vím, že existuje John Smith. Jeden je bezpečnější než druhý. Teď očekávám, že to napraví, vždy si spolu hrají skokovou žábu. A opět se nesnažím rozlišovat mezi databázemi, než ukázat příklad - podívejme se na to, o čem teď mluvíme, něco tak jednoduchého, jako je výběr účtu, musí být sníženo také redakcí, i když technicky řečeno, není nic redigovaného kromě existence řady.
Robin Bloor: Jo, správně. To je docela zajímavé. Další obecná otázka, protože nemám moc času, je opravdu jen o vylepšeních. Myslím, že jste byli v jedné, kde vím, že jste nám ukazoval příklady různých výsledků testů, které jste spustili - myslíte si, že tradiční databáze, řekněme jim dominantní databáze, SQL Server a Oracle, že myslíte si, že zůstanou před dokončením? Nebo si myslíte, že se skutečně chytí jedním nebo druhým z různých druhů narušení trhu, které pro ně skutečně běží? Jaký je váš názor?
Bert Scalzo: Mám názor a je to - víte, znovu řeknu, že je to můj názor - například Microsoft, v post-Ballmerově éře ze mě jen dojem na živé peklo. Mám na mysli tuto roztažnou databázi získávající SQL Server v Linuxu, získávání .NET v Linuxu, získávání PowerShell v Linuxu; Nemyslím si, že tradiční dodavatelé databází zůstanou pozadu. Myslím, že se rozhodli: „Hej, nechte nové lidi, startupy něco definují. Nechte je přijít na to, co je to sharding a jak by mělo být zdokonaleno, a jakmile provedou veškerý výzkum a vývoj, víme přesně, co uživatelé chtějí, nyní přidáme sharding do společnosti Oracle. “Myslím, že jsou prostě chytří a říkat: „Hej, být druhým nebo třetím není špatné, když jsi dominantním hráčem, protože pak lidé z tebe nebudou migrovat.“
Robin Bloor: Jo, myslím, že to byla strategie, která byla použita. Chci tím říct, že IBM to dělala a celé - pro celou řadu svých produktů a hodnotí se přiměřeně dobře, dokud někdo nepřijde s něčím, co je úplně mimo zeď, na které nikdo nikdy nenapadlo, ale nemůžete plánovat proti tomu stejně.
Otázky publika, Ericu?
Eric Kavanagh: Jo, ale máš čas, myslím, že jen pro jednoho a vím, že Bert musí běžet. Bylo tu něco o - v pořádku, shardingová architektura na Oracle 12c je to označení - nebo co je to podle vašeho názoru, co si myslíte, že se tam děje?
Bert Scalzo: Oracle absorbuje nebo nabízí vše, co jsou všichni ostatní dodavatelé databází. Například mohu do Oracle vložit nestrukturovaná data. Nevím, jak můžete dát nestrukturovaná data a pak to nazvat relační databází, takže to nedává smysl, ale můžete. A nyní Oracle přidává stříhání, takže Oracle říká: „Víte co? Ať už trh chce cokoli, připravíme nabídku naší databáze, protože trh chce to, co trh chce a chceme řešení dodat, chceme, aby zůstali u nás. “
Myslím, že uvidíte další položky. Nepřekvapilo by mě, kdybych viděl shlukování databázových uzlů podobného hadoopům ne v Oracle stojanu nebo skutečném aplikačním klastru, ale v podstatě ve více tradičních shlucích typu Hadoop, které dělají toto sharding. A tak si myslím, že budete moci nasadit databázi jako Oracle, jako byste byli Hadoop, a tyto trendy budou pokračovat. Tito velcí dodavatelé databází vydělávají miliardy dolarů a nechtějí ztratit svůj trh, takže jsou ochotni se na cokoli přizpůsobit nebo cokoli přijmout.
Eric Kavanagh: No, víte, je to vtipné, protože jsem nějakou dobu sledoval dodavatele open source a přemýšlel jsem o tom, jak velký dopad to bude mít na tradiční technologii zavřených dveří, a na chvíli to Určitě se cítili, jako by dodavatelé open source dělali nějaký vážný pokrok, a teď, když se podívám na tržiště, vidím něco, co říkáte, že velcí chlapi udělali matematiku, nabrali si tužky a zjistili, jak mohou spoustu těchto věcí utkat do svých architektur. Ať už je to IBM nebo Oracle nebo SAP - minulý měsíc jsem byl právě na konferenci SapphireNow a Steve Lucas, který stojí v čele poloviny této společnosti, se chlubil tím, že SAP nyní do své cloudové platformy HANA začleňuje více open-source komponent než kterékoli z jejich konkurenty. Pokud to uděláte matematicky, je to docela působivé prohlášení a říká mi, že velcí kluci nikam brzy nikam nepůjdou.
Bert Scalzo: Ne, vsadil bych své peníze na oba. Myslím, že když se podíváte, akcie Microsoftu byly v poslední době kolem 50 USD a víte, právě před několika lety to bylo na 25. Pokud neděláte dobré věci a neděláte zdvojnásobení své ceny akcií v krátkém období. Vím, že od všeho, co je od prvního roku zdarma pro Windows 10, až po všechny ostatní chytré věci, které dělají, je tato funkce natahování databáze považována za fenomenální. Myslím, že to, co se stane, je, že v Azure skončí spousta lidí, ne přímo, ne jako by řekli: „Pojďme přenést moji databázi do Azure.“ Bude to tam magicky migrovat, protože se to archivuje tam pomocí této nové funkce natáhnout databázi, a tak přijetí Azure bude jen stoupat.
Eric Kavanagh: No, to je jeden z trendů na trhu, který vidím, dokonce i na vašem Macu. Když v počítači Mac ukládáte některé dokumenty, nyní - a novější počítače Mac právě sledují cloud, že? Myslím, že v této strategii je hodně smyslu a také se na ni podívám a jdu: „Dobře, lidi, snažíte se mě nalákat kousek po kousku do vašeho cloudového prostředí, a pak jednou, když chci sledovat nějaký film, pokud platnost mé kreditní karty vypršela, budu mít potíže. “
Bert Scalzo: Jo, ale děláte to na Facebooku.
Eric Kavanagh: Jo. To je pravda.
Bert Scalzo: Vše jsi dal na Facebook.
Eric Kavanagh: No, ne úplně všechno.
Bert Scalzo: Ne, myslím -
Eric Kavanagh: Jo, jdi do toho.
Bert Scalzo: Tyto sociální trendy sahají do podnikání. Nyní mají podniky ještě spoustu dalších věcí, které musí dělat, ale vidí tyto trendy a dělají stejné věci. Nevidím odchod Oracle ani Microsoft. Ve skutečnosti budu kupovat akcie na každém pokaždé, když dojde k poklesu.
Eric Kavanagh: Ano, opravdu. Lidi, jděte na idera.com, IDERA dot com. Jak řekl Bert, mají tam spoustu bezplatných věcí a je to jeden z nových trendů na trhu - dá vám pár bezplatných věcí, s nimiž si budete moci pohrát, zaháknout vás a pak si jít koupit skutečné věci.
Lidi, tohle byla další horká technologie. Díky za dnešek, Bert, samozřejmě Dez, a také Robin. Budeme s vámi mluvit příští týden, lidi, děje se spousta věcí. Pokud máte nějaké nápady, neváhejte a pošlete své e-maily skutečně, . Budeme s tebou mluvit příště, lidi, dávej pozor. Ahoj.