Q:
Proč pytlování ve strojovém učení snižuje rozptyl?
A:Agregace Bootstrap neboli „pytlování“ ve strojovém učení snižuje rozptyl tím, že vytváří pokročilejší modely složitých datových sad. Konkrétně způsob pytlování vytváří podsady, které se často překrývají, aby se data modelovala více zapojeným způsobem.
Jeden zajímavý a přímý názor na to, jak aplikovat pytlování, je odebrat soubor náhodných vzorků a extrahovat jednoduchý průměr. Poté pomocí stejné sady vzorků vytvořte desítky podmnožin vytvořených jako rozhodovací stromy pro manipulaci s případnými výsledky. Druhý průměr by měl ukazovat pravdivější obrázek o tom, jak se tyto jednotlivé vzorky vzájemně hodnotově hodnotí. Stejný nápad lze použít na jakoukoli vlastnost libovolné sady datových bodů.
Zdarma ke stažení: Strojové učení a proč to záleží |
Protože tento přístup konsoliduje objev do více definovaných hranic, snižuje rozptyl a pomáhá s přeplněním. Pomysli na rozptyl s poněkud distribuovanými datovými body; pomocí metody pytlování, inženýři "zmenšují" složitost a orientují objevovací linie, aby hladší parametry.
Někteří mluví o hodnotě pytlování jako „rozdělit a dobýt“ nebo o typu „asistované heuristiky“. Myšlenka je taková, že pomocí modelování souborů, jako je použití náhodných lesů, mohou ti, kteří používají techniku pytlování, získat výsledky dat, které jsou méně rozptylovány. Pokud jde o zmenšení složitosti, může pytlování také pomoci s přeplněním. Přemýšlejte o modelu s příliš velkým počtem datových bodů: řekněme spojovací body se 100 nevyrovnanými tečkami. Výsledná linie vizuálních dat bude roztřepená, dynamická a nestálá. Poté „vylaďte“ rozptyl sestavením sad hodnocení. V souhrnném učení se to často považuje za spojení několika „slabých žáků“, aby bylo dosaženo „kolaborativního výsledku“ silného učení. Výsledkem je plynulejší a konturovanější datová linie a menší divoké rozptyl v modelu.
Je snadné vidět, jak lze myšlenku pytlování aplikovat na podnikové IT systémy. Obchodní vedoucí často chtějí „ptačí pohled“ na to, co se děje s produkty, zákazníky atd. Přepracovaný model může vracet méně strávitelná data a více „rozptýlených“ výsledků, kde pytlování může „stabilizovat“ model a učinit jej užitečnějším koncovým uživatelům.