Domov Zvuk Jak maximální sdružování pomáhá, aby alexnet byl skvělou technologií pro zpracování obrazu?

Jak maximální sdružování pomáhá, aby alexnet byl skvělou technologií pro zpracování obrazu?

Anonim

Q:

Jak maximální sdružování pomáhá, aby byl AlexNet skvělou technologií pro zpracování obrazu?

A:

V AlexNet, inovativní konvoluční neuronové síti, je koncept maximálního sdružování vložen do komplexního modelu s několika konvolučními vrstvami, částečně proto, aby pomohl s přizpůsobením a zefektivnil práci, kterou neuronová síť dělá při práci s obrázky, s tím, co odborníci nazývají „nelineární strategie převzorkování“.

AlexNet je široce považován za docela skvělou CNN, když vyhrál v roce 2012 ILSVRC (ImageNet Large-Scale Visual Recognition Challenge), který je považován za povodeň pro strojové učení a postup neuronové sítě (někteří to nazývají „olympiádou“ počítačového vidění ).

V rámci sítě, kde je školení rozděleno do dvou GPU, existuje pět konvolučních vrstev, tři plně propojené vrstvy a některé implementace maximálního sdružování.

V zásadě maximální sdružování vezme „fond“ výstupů ze sbírky neuronů a aplikuje je na hodnoty následující vrstvy. Dalším způsobem, jak to pochopit, je, že přístup maximálního sdružování může konsolidovat a zjednodušit hodnoty kvůli vhodnějšímu přizpůsobení modelu.

Maximální sdružování může pomoci vypočítat přechody. Dalo by se říci, že „snižuje výpočetní zátěž“ nebo „zmenšuje se přeplňování“ - pomocí převzorkování se maximální sdružování zabývá tím, co se nazývá „zmenšení rozměrů“.

Redukce dimenze se zabývá problémem mít příliš komplikovaný model, který je obtížné provozovat neuronovou sítí. Představte si složitý tvar s mnoha malými zubatými obrysy a každou malou část této linie představovanou datovým bodem. Díky zmenšení rozměrů pomáhají inženýři strojovému učebnímu programu „oddálit“ nebo vzorkovat méně datových bodů, aby byl model jako celek jednodušší. Proto, když se podíváte na maximální společnou vrstvu a její výstup, můžete někdy vidět jednodušší pixelaci odpovídající strategii snižování rozměrů.

AlexNet také používá funkci nazvanou rektifikované lineární jednotky (ReLU) a maximální sdružování může být komplementární k této technice při zpracování obrázků prostřednictvím CNN.

Odborníci a ti, kteří se podílejí na projektu, poskytli bohaté vizuální modely, rovnice a další podrobnosti, které ukazují konkrétní sestavení AlexNet, ale v obecném slova smyslu můžete uvažovat o maximálním sdružování jako sloučení nebo konsolidaci produkce více umělých neuronů. Tato strategie je součástí celkové konstrukce CNN, která se stala synonymem pro špičkové strojové vidění a klasifikaci obrazu.

Jak maximální sdružování pomáhá, aby alexnet byl skvělou technologií pro zpracování obrazu?