Q:
Jak se stalo seškrabávání dat pro strojové učení nejnáročnějším pracovním problémem od ručního zadávání dat při migraci starších?
A:Jedním z praktických problémů, s nimiž se mohou společnosti setkat při pokusu o zahájení projektu strojového učení (ML), je výzva k získání počátečních datových souborů školení. To může zahrnovat procesy náročné na pracovní sílu, jako je webový škrabání nebo jiné datové škrabání.
Výrazy webový škrabání a datový škrabání do značné míry odkazují na automatizovanou činnost pomocí počítačového softwaru, ale u mnoha projektů ML budou existovat případy, kdy počítače nebudou mít sofistikovanost, aby mohly shromažďovat správná cílená data, takže to bude muset být provedeno "ručně." Můžete to nazvat „škrábání lidského webu / dat“ a je to nevděčná práce. Obecně to znamená jít ven a hledat data nebo obrázky, které „krmí“ ML program prostřednictvím tréninkových sad. Je to často docela iterativní, což z něj dělá únavnou, zdlouhavou a náročnou práci.
Zdarma ke stažení: Strojové učení a proč to záleží |
Šrotování dat pro tréninkové sady ML představuje jedinečně problematický problém ve strojovém učení, částečně proto, že tolik další práce je vysoce koncepční a neopakovatelné. Mnoho lidí může přijít s skvělým nápadem na novou aplikaci, která plní úkoly strojového učení, ale matice a šrouby a praktická práce mohou být mnohem těžší. Konkrétně může být delegování práce na sestavování výcvikových sestav jednou z nejtěžších částí projektu ML, jak je plně prozkoumáno v televizní show „Mili Judge“ „Silicon Valley“. V epizodě čtvrté sezóny začínající podnikatel nejprve vykořisťuje partnera, aby vykonal práci náročnou na práci, a poté se ji pokusil předat vysokoškolským studentům tím, že ji zamaskoval jako domácí úkol.
Tento příklad je poučný, protože ukazuje, jak nelítostné a zdánlivě nedůležité je ruční škrábání dat. Ukazuje však také, že tento proces je nezbytný pro širokou škálu produktů strojového učení. Ačkoli většina lidí nenávidí zadávání dat, musí být školicí sestavy nějakým způsobem sestaveny. Odborníci na tento proces často doporučují používat službu webového škrabání - v zásadě pouze externě zadávají tuto práci, která je velmi náročná na práci, externím stranám, ale to by mohlo mít bezpečnostní důsledky a způsobit další problémy. Při manuálním shromažďování údajů ve vlastní firmě musí být opět stanoveno, co je často velmi manuální a časově náročný proces.
V některých ohledech „škrábání lidských dat“ pro strojové učení vypadá jako ruční zadávání dat, které někdy muselo být provedeno při starší migraci. S tím, jak se cloud stal čím dál populárnějším a společnosti vkládaly své procesy a pracovní postupy do cloudu, někteří zjistili, že nepracovali prostřednictvím praktických aspektů, jak získat svá firemní data z izolovaného starého systému do cloudových nativních aplikací. Výsledkem bylo, že někteří lidé, kteří byli jinak vědci v oblasti dat nebo kreativní lidé se základními dovednostmi v oblasti IT, se ocitli v nepříjemných úkolech při zadávání dat.
Totéž se pravděpodobně stane při strojovém učení. Možná uslyšíte vědce údajů, který si stěžuje, že „jsem kreativní člověk“ nebo „jsem na straně vývoje“ - ale někdo musí udělat špinavou práci.
Opět platí, že pokud kreativní tok neodpovídá praktickému posouzení delegování pracovního postupu, bude nesoulad v tom, jak je řízení úkolů směrováno. Pokud společnost nemá lidi, kteří by prováděli práci při sběru dat při shromažďování dat, postrádá klíčovou část řetězce postupů pro úspěšný projekt. To stojí za to mít na paměti pokaždé, když se společnost snaží udělat dobrý nápad, který je založen na vývoji nových aplikací strojového učení.