Obsah:
Definice - Co znamená tokenizace?
Tokenizace je akt rozdělení řetězců na kousky, jako jsou slova, klíčová slova, fráze, symboly a další prvky nazývané tokeny. Tokeny mohou být jednotlivá slova, fráze nebo dokonce celé věty. V procesu tokenizace jsou některé znaky, jako jsou interpunkční znaménka, zahozeny. Tokeny se stávají vstupem pro další proces, jako je analýza a těžba textu.
Tokenizace se používá v informatice, kde hraje velkou roli v procesu lexikální analýzy.
Techopedia vysvětluje Tokenization
Tokenizace se většinou opírá o jednoduchou heuristiku, aby oddělila tokeny následujícím postupem:
- Žetony nebo slova jsou odděleny mezerami, interpunkčními znaménky nebo zalomením řádků
- Mezery nebo interpunkční znaménka mohou nebo nemusí být v závislosti na potřebě zahrnuty
- Všechny znaky v sousedících řetězcích jsou součástí tokenu. Žetony mohou být tvořeny pouze všemi alfa, alfanumerickými nebo číselnými znaky.
Samy tokeny mohou být také separátory. Například ve většině programovacích jazyků lze identifikátory umisťovat společně s aritmetickými operátory bez mezer. Ačkoli se zdá, že by se to objevilo jako jediné slovo nebo token, gramatika jazyka ve skutečnosti považuje matematický operátor (token) za oddělovač, takže i když je více žetonů seskupeno dohromady, mohou být stále matematicky odděleny operátor.