Jak mohou inženýři vyhodnotit tréninkové sady a testovací sady, aby zjistili možné nadměrné vybavení ve strojovém učení?

2026

Jak mohou inženýři vyhodnotit tréninkové sady a testovací sady, aby zjistili možné nadměrné vybavení ve strojovém učení?

Abychom pochopili, jak se to dělá, je třeba mít základní přehled o rolích různých datových sad v typickém projektu strojového učení. Sada školení je nastavena tak, aby poskytla technologii referenční rámec - základní datovou linii, kterou program používá k přijímání prediktivních a pravděpodobnostních rozhodnutí. Zkušební sada je místo, kde testujete zařízení na datech.

Overfitting je syndrom v strojovém učení, kde model plně neodpovídá datům nebo účelu.

Zdarma ke stažení: Strojové učení a proč to záleží

Jedním z hlavních přikázání strojového učení je, že tréninková data a testovací data by měla být samostatnými datovými soubory. O tom existuje poměrně široký konsenzus, přinejmenším v mnoha aplikacích, kvůli některým konkrétním problémům s používáním stejné sady, kterou jste použili pro výcvik k testování programu strojového učení.

Když program strojového učení využívá tréninkovou sadu, která by se dala nazvat v podstatě sadou vstupů, pracuje na tom, aby se rozhodovalo o prediktivních výsledcích. Jedním ze základních způsobů, jak o tom přemýšlet, je to, že tréninková sada je „potravou“ pro proces intelektuální práce.

Nyní, když se pro testování použije stejná sada, může stroj často vrátit vynikající výsledky. Je to proto, že již tato data viděla dříve. Celým cílem strojového učení je však v mnoha případech dosáhnout výsledků o datech, která dříve nebyla vidět. Programy strojového učení pro všeobecné použití jsou vyrobeny tak, aby fungovaly na různých souborech dat. Jinými slovy, princip strojového učení je objev a ty obvykle nedostanete tolik, pokud použijete počáteční tréninkovou sadu pro účely testování.

Při vyhodnocování tréninkových sad a testovacích sad pro možné přeplnění mohou inženýři posoudit výsledky a zjistit, proč by program mohl udělat srovnávací výsledky těchto dvou sad odlišně, nebo v některých případech, jak by stroj mohl dělat příliš dobře na samotných tréninkových datech. .

Jason Brownlee z Machine Learning Mastery, který je schopen popsat některé z těchto problémů strojového učení v roce 2014, popisuje nadměrné vybavení tímto způsobem:

„Model, který je vybrán pro svou přesnost na datovém souboru školení spíše než na jeho přesnost na neviditelném testovacím datovém souboru, má velmi pravděpodobně nižší přesnost na neviditelném testovacím datovém souboru, “ píše Brownlee. „Důvod je ten, že model není tak zobecněný. Specalized ke struktuře v datovém souboru školení (kurzíva přidána). Říká se tomu přeplnění a je to zákeřnější, než si myslíte.“

Z pohledu laiků by se dalo říci, že při specializaci na soubor údajů o tréninku je program příliš rigidní. To je další metaforický způsob, jak se podívat na to, proč není program strojového učení optimálně obsluhován pomocí tréninkové sady pro testovací sadu. Je to také dobrý způsob, jak přistupovat k hodnocení těchto dvou různých sad, protože výsledky ukážou technikům hodně o tom, jak program funguje. Chcete menší přesnost mezi přesností pro oba modely. Chcete se ujistit, že systém není přeplněný nebo „přesně fúzovaný“ k určité sadě dat, ale že je obecnější a je schopen růst a vyvíjet se na příkaz.

Jak mohou inženýři vyhodnotit tréninkové sady a testovací sady, aby zjistili možné nadměrné vybavení ve strojovém učení?

Jak mohou inženýři využít zesílení gradientu ke zlepšení systémů strojového učení?

Jak mohou zúčastněné strany použít tři klíčové provozní fáze autonomního řízení nadměrné konvergence?

Jak se indukční algoritmus používá ve strojovém učení?

Výběr redakce

Co je to konvoluční neuronová síť (cnn)? - definice z techopedie

Co je to teorie rozhodování? - definice z techopedie

Co je to fúze dat? - definice z techopedie

Co je evoluční algoritmus? - definice z techopedie

Výběr redakce

Co je jxta? - definice z techopedie

Co je potrubí? - definice z techopedie

Co je skupina pro správu objektů (omg)? - definice z techopedie

Co je výplňový text? - definice z techopedie

Výběr redakce

Co je za studena? - definice z techopedie

Co je to infrastrukturní software? - definice z techopedie

Co je to vývojový server? - definice z techopedie

Co je to anotace? - definice z techopedie

Výběr redakce

Co je to prezentační vrstva? - definice z techopedie

Co je rozhraní primární sazby (pri)? - definice z techopedie

Co je tisková fronta? - definice z techopedie

Co je kabel tiskárny? - definice z techopedie

Výběr redakce

Co je digitální řídicí panel? - definice z techopedie

Co je to digitální obálka? - definice z techopedie

Co je to xmodem? - definice z techopedie

Co je standard digitálního podpisu (dss)? - definice z techopedie

Populární kategorie