Tokenizarea este un pas esențial în procesarea limbajului natural (NLP), care constă în împărțirea unui text într-un set de unități mai mici numite tokeni. Acești tokeni pot fi cuvinte, propoziții, fraze sau chiar subunități de cuvânt, în funcție de algoritmul folosit. Scopul este de a transforma textul brut într-o formă mai ușor de analizat și procesat de către modelele AI.
Tokenizarea este utilizată în aplicații precum analiza sentimentelor, clasificarea de texte, traducerea automată și generarea de text. În modelele moderne de limbaj, cum ar fi GPT sau BERT, tokenii pot fi fracțiuni de cuvinte (subword units), pentru a gestiona mai eficient vocabularul și limbajele variate. Alegerea unei strategii de tokenizare potrivite influențează direct performanța și acuratețea sistemului NLP.