Domov Trendy Jaký je jednoduchý způsob, jak popsat zaujatost a rozptyl ve strojovém učení?

Jaký je jednoduchý způsob, jak popsat zaujatost a rozptyl ve strojovém učení?

Anonim

Q:

Jaký je jednoduchý způsob, jak popsat zaujatost a rozptyl ve strojovém učení?

A:

Existuje celá řada komplikovaných způsobů, jak popsat zaujatost a rozptyl ve strojovém učení. Mnoho z nich využívá výrazně složité matematické rovnice a pomocí grafu ukazuje, jak konkrétní příklady představují různá množství zkreslení a rozptylu.

Zde je jednoduchý způsob, jak popsat předpojatost, rozptyl a kompromis předpojatosti / rozptylu ve strojovém učení.

Jádrem zaujatosti je předimplikace. Může být důležité přidat do definice zkreslení určitý předpoklad nebo předpokládanou chybu.

Pokud by vysoce zkreslený výsledek nebyl v omylu - kdyby to bylo na penězích - bylo by to velmi přesné. Problém spočívá v tom, že zjednodušený model obsahuje nějakou chybu, takže se nejedná o býčí oko - významná chyba se neustále opakuje nebo dokonce zesiluje, jak funguje program strojového učení.

Jednoduchá definice rozptylu spočívá v tom, že výsledky jsou příliš rozptýlené. To často vede k nadměrné složitosti programu a problémům mezi testovacími a tréninkovými sadami.

Velká rozptyl znamená, že malé změny vytvářejí velké změny ve výstupech nebo výsledcích.

Dalším způsobem, jak jednoduše popsat varianci, je to, že v modelu je příliš mnoho šumu, a tak je pro strojový učební program obtížnější izolovat a identifikovat skutečný signál.

Jedním z nejjednodušších způsobů, jak porovnat předpojatost a rozptyl, je navrhnout, aby inženýři strojového učení museli procházet jemnou linií mezi příliš velkým zaujatím nebo přílišným zjednodušením a příliš velkým rozptylem nebo přílišnou složitostí.

Dalším způsobem, jak reprezentovat tuto studnu, je čtyřčtvrtinový graf ukazující všechny kombinace vysokého a nízkého rozptylu. V kvadrantu nízkého zkreslení / rozptylu jsou všechny výsledky shromážděny v přesném shluku. Ve výsledku s vysokou předpojatostí / nízkou rozptylem jsou všechny výsledky shromažďovány společně v nepřesném klastru. Ve výsledku s nízkým zkreslením / vysokou rozptylem jsou výsledky rozptýleny kolem centrálního bodu, který by představoval přesný shluk, zatímco ve výsledku s velkým zkreslením / velkým rozptylem jsou datové body rozptýleny a společně nepřesné.

Jaký je jednoduchý způsob, jak popsat zaujatost a rozptyl ve strojovém učení?