Obsah:
Definice - Co znamená Outlier Detection?
Detekce vnějšku je proces detekce a následného vyloučení odlehlých hodnot z dané sady dat.
Odlehlé hodnoty mohou být definovány jako část dat nebo pozorování, která se výrazně odchyluje od dané normy nebo průměru souboru údajů. Odlehlé hodnoty mohou být způsobeny jednoduše náhodou, ale mohou také indikovat chybu měření nebo že daný soubor dat má distribuci s velkým ocasem.
Zde je jednoduchý scénář v detekci odlehlých hodnot, proces měření důsledně vytváří odečty mezi 1 a 10, ale v ojedinělých případech dostáváme měření větší než 20.
Tato vzácná měření nad rámec normy se nazývají odlehlé hodnoty, protože „leží mimo“ normální distribuční křivka.
Techopedia vysvětluje detekci Outlier
Ve skutečnosti neexistuje standardizovaná a rigidní matematická metoda pro stanovení odlehlé hodnoty, protože se opravdu liší v závislosti na souboru nebo datové populaci, takže její stanovení a detekce se nakonec stává subjektivní. Kontinuálním vzorkováním v daném datovém poli mohou být stanoveny charakteristiky odlehlé hodnoty, aby se usnadnila detekce.
Existují modelové metody detekce odlehlých hodnot a předpokládají, že všechna data jsou převzata z normální distribuce a jako pozorovaná odlehlé hodnoty identifikují pozorování nebo body, které jsou považovány za nepravděpodobné na základě střední nebo standardní odchylky. Existuje několik metod detekce odlehlých hodnot:
- Grubbův test pro odlehlé hodnoty - Toto je založeno na předpokladu, že data mají normální distribuci a odstraňuje jeden odlehlý najednou, přičemž test je opakován, dokud již žádné odlehlé hodnoty nelze najít.
- Dixonův Q test - Tato metoda také vychází z normality sady dat a testuje na špatná data. Bylo zaznamenáno, že by to mělo být používáno v datové sadě střídmě a nikdy vícekrát.
- Chauvenetovo kritérium - Používá se k analýze toho, zda je odlehlý objekt rušivý nebo je stále v mezích a je považován za součást souboru. Zjišťuje se průměr a směrodatná odchylka a vypočítává se pravděpodobnost, že dojde k odlehlé hodnotě. Výsledky určí, zda by měly být zahrnuty či nikoli.
- Pierceovo kritérium - Mezní hodnota chyby je stanovena pro řadu pozorování, za nimiž budou všechna pozorování zahozena, protože již zahrnují tak velkou chybu.