Domov Zvuk Jaké jsou klíčové způsoby automatizace a optimalizace procesů vědecké práce s údaji?

Jaké jsou klíčové způsoby automatizace a optimalizace procesů vědecké práce s údaji?

Anonim

Q:

Jaké jsou klíčové způsoby automatizace a optimalizace procesů vědecké práce s údaji?

A:

Procesy datové vědy v kontextu strojového učení a umělé inteligence lze rozdělit do čtyř různých fází:

  1. získávání a průzkum dat,
  2. vytváření modelu,
  3. nasazení modelu a
  4. online hodnocení a upřesnění.

Podle mých zkušeností jsou nejvíce překážkovými fázemi fáze sběru dat a implementace modelu v jakémkoli procesu strojového učení založeném na údajích a zde jsou dva způsoby, jak je optimalizovat:

1. Vytvořte vysoce přístupný datový sklad.

Ve většině organizací nejsou data uložena na jednom centrálním místě. Vezměme si pouze informace týkající se zákazníků. Máte kontaktní informace o zákaznících, e-maily podpory zákazníků, zpětnou vazbu od zákazníků a historii prohlížení zákazníků, pokud je vaše firma webovou aplikací. Všechna tato data jsou přirozeně rozptýlena, protože slouží různým účelům. Mohou být umístěny v různých databázích a některé mohou být plně strukturované a některé nestrukturované a dokonce mohou být uloženy jako prosté textové soubory.

Bohužel je rozptýlenost těchto datových sad vysoce omezena na práci s datovými vědami, protože základem všech problémů NLP, strojového učení a umělé inteligence jsou data . Mít všechna tato data na jednom místě - datovém úložišti - je proto rozhodující pro urychlení vývoje a nasazení modelu. Vzhledem k tomu, že se jedná o klíčový prvek pro všechny procesy vědecké práce s údaji, měly by organizace najmout kvalifikované datové inženýry, aby jim pomohli vytvořit jejich datové úložiště. To může snadno začít tím, jak se jednoduché datové výpisy ukládají na jedno místo a pomalu rostou v promyšlené úložiště dat, plně zdokumentované a usměrněné pomocí obslužných nástrojů pro export podmnožin dat do různých formátů pro různé účely.

2. Vystavte své modely jako službu pro bezproblémovou integraci.

Kromě umožnění přístupu k datům je také důležité integrovat modely vyvinuté vědci do produktu. Může být velmi obtížné integrovat modely vyvinuté v Pythonu s webovou aplikací, která běží na Ruby. Kromě toho mohou mít modely mnoho datových závislostí, které váš produkt nemusí poskytnout.

Jedním ze způsobů, jak to vyřešit, je vytvořit silnou infrastrukturu kolem vašeho modelu a odhalit tolik funkčnosti, jaké váš produkt potřebuje, aby byl model použit jako „webová služba“. Například pokud vaše aplikace vyžaduje klasifikaci sentimentu v recenzích produktů, vše, co by mělo udělat, je vyvolání webové služby, poskytnutí příslušného textu a služba by vrátila příslušnou klasifikaci sentimentu, kterou produkt může přímo použít. Tímto způsobem je integrace jednoduše ve formě volání API. Díky oddělení modelu a produktu, který používá, je opravdu snadné pro nové produkty, které přicházíte, také používat tyto modely s malými problémy.

Nyní je nastavení infrastruktury kolem vašeho modelu úplně jiné a vyžaduje velké počáteční investice od vašich technických týmů. Jakmile je infrastruktura k dispozici, je to jen otázka budování modelů způsobem, který zapadá do infrastruktury.

Jaké jsou klíčové způsoby automatizace a optimalizace procesů vědecké práce s údaji?