Q:
Jak mohou inženýři využít zesílení gradientu ke zlepšení systémů strojového učení?
A:Stejně jako jiné druhy posilování, i zesílení gradientu usiluje o to, aby se několik slabých studentů stalo jediným silným studentem, což je druh digitálního „crowdsourcingu“ vzdělávacího potenciálu. Dalším způsobem, jak někteří vysvětlují zvyšování gradientu, je to, že inženýři přidávají proměnné, aby doladili neurčitou rovnici, aby produkovali přesnější výsledky.
Posilování přechodu je také popsáno jako „iterativní“ přístup, přičemž iterace mohou být charakterizovány jako přidání jednotlivých slabých žáků k jedinému silnému modelu žáka.
Zdarma ke stažení: Strojové učení a proč to záleží |
Zde je přesvědčivý popis toho, jak se dívat na typ implementace zvyšující gradient, která zlepší výsledky strojového učení:
Správci systému nejprve nastavili řadu slabých studentů. Představte si je například jako řadu entit AF, každý seděl kolem virtuální tabulky a pracoval na problému, například na klasifikaci binárních obrázků.
Ve výše uvedeném příkladu inženýři nejprve zváží každého slabého studenta, případně libovolně, přiřazením úrovně vlivu A, B, C atd.
Dále program spustí danou sadu tréninkových obrazů. Poté, vzhledem k výsledkům, přehodnotí řadu slabých studentů. Pokud bude A hádat mnohem lépe než B a C, vliv A bude odpovídajícím způsobem zvýšen.
V tomto zjednodušeném popisu vylepšení algoritmu je relativně snadné vidět, jak složitější přístup přinese zlepšené výsledky. Slabí studenti „myslí společně“ a optimalizují problém ML.
Výsledkem je, že inženýři mohou používat „souborový“ přístup ke zvýšení gradientu téměř v jakémkoli typu ML projektu, od rozpoznávání obrázků až po klasifikaci doporučení uživatelů nebo analýzu přirozeného jazyka. Je to v zásadě „týmový duch“ přístup k ML a ten, který získává velkou pozornost od některých mocných hráčů.
Zejména zesílení gradientu často pracuje s funkcí diferencovatelné ztráty.
V jiném modelu používaném k vysvětlení zesílení gradientu je další funkcí tohoto druhu zesílení schopnost izolovat klasifikace nebo proměnné, které jsou na větším obrázku pouhým šumem. Rozdělením regresního stromu každé proměnné nebo datové struktury do domény jednoho slabého studenta mohou inženýři sestavit modely, které budou přesněji „vydávat“ zvukové signály. Jinými slovy, významnost, kterou pokrývá nešťastný slabý student, bude marginalizována, protože slabý student je vyvážen směrem dolů a má menší vliv.