Obsah:
Definice - Co znamená těžba textových dat?
Dolování textových dat zahrnuje česání prostřednictvím textového dokumentu nebo zdroje za účelem získání cenných strukturovaných informací. To vyžaduje sofistikované analytické nástroje, které zpracovávají text za účelem získání konkrétních klíčových slov nebo klíčových datových bodů z toho, co se považuje za relativně syrové nebo nestrukturované formáty.
Těžba textových dat je také známá jako těžba textu nebo textová analytika.
Techopedia vysvětluje těžbu textových dat
Při těžbě textových dat používají inženýrské systémy věci jako taxonomie a lexikální analýza k určení, které části textového dokumentu jsou cenné jako těžená data. Statistické modely jsou běžně užitečné a systémy mohou také používat heuristiku nebo algoritmické odhady, aby se pokusily určit, které části textu jsou důležité. Mezi další kontrolní systémy patří značkování a analýza klíčových slov, kde nástroje hledají konkrétní správná podstatná jména nebo jiné značky a klíčová slova, aby zjistily, o čem je psáno.
Další jedinečnou součástí dolování textu je často nazývána analýza sentimentu. V analýze sentimentu, která je obecně mnohem obtížnější než statistická analýza, se analytické nástroje snaží zjistit náladu nebo sentiment za psaným textem a další aspekty toho, na co se zaměřují, na velmi subjektivní a intuitivní úrovni. Se vznikem nástrojů umělé inteligence se v analýze sentimentu dosáhlo velkého pokroku, takže moderní těžba textových dat je více než pouhé shromažďování kvantitativních odkazů a vyžaduje přenést koncepční modely na vysoké úrovni do těžby textu, aby bylo možné vymyslet nové a jedinečné způsoby. agregovat cenné údaje.