Q:
Jaký je jednoduchý způsob, jak popsat zaujatost a rozptyl ve strojovém učení?
A:Existuje celá řada komplikovaných způsobů, jak popsat zaujatost a rozptyl ve strojovém učení. Mnoho z nich využívá výrazně složité matematické rovnice a pomocí grafu ukazuje, jak konkrétní příklady představují různá množství zkreslení a rozptylu.
Zde je jednoduchý způsob, jak popsat předpojatost, rozptyl a kompromis předpojatosti / rozptylu ve strojovém učení.
Jádrem zaujatosti je předimplikace. Může být důležité přidat do definice zkreslení určitý předpoklad nebo předpokládanou chybu.
Pokud by vysoce zkreslený výsledek nebyl v omylu - kdyby to bylo na penězích - bylo by to velmi přesné. Problém spočívá v tom, že zjednodušený model obsahuje nějakou chybu, takže se nejedná o býčí oko - významná chyba se neustále opakuje nebo dokonce zesiluje, jak funguje program strojového učení.
Jednoduchá definice rozptylu spočívá v tom, že výsledky jsou příliš rozptýlené. To často vede k nadměrné složitosti programu a problémům mezi testovacími a tréninkovými sadami.
Velká rozptyl znamená, že malé změny vytvářejí velké změny ve výstupech nebo výsledcích.
Dalším způsobem, jak jednoduše popsat varianci, je to, že v modelu je příliš mnoho šumu, a tak je pro strojový učební program obtížnější izolovat a identifikovat skutečný signál.
Jedním z nejjednodušších způsobů, jak porovnat předpojatost a rozptyl, je navrhnout, aby inženýři strojového učení museli procházet jemnou linií mezi příliš velkým zaujatím nebo přílišným zjednodušením a příliš velkým rozptylem nebo přílišnou složitostí.
Dalším způsobem, jak reprezentovat tuto studnu, je čtyřčtvrtinový graf ukazující všechny kombinace vysokého a nízkého rozptylu. V kvadrantu nízkého zkreslení / rozptylu jsou všechny výsledky shromážděny v přesném shluku. Ve výsledku s vysokou předpojatostí / nízkou rozptylem jsou všechny výsledky shromažďovány společně v nepřesném klastru. Ve výsledku s nízkým zkreslením / vysokou rozptylem jsou výsledky rozptýleny kolem centrálního bodu, který by představoval přesný shluk, zatímco ve výsledku s velkým zkreslením / velkým rozptylem jsou datové body rozptýleny a společně nepřesné.