Lematizarea este un proces esențial în procesarea limbajului natural care constă în reducerea unui cuvânt la forma sa de bază, numită lema, ținând cont de contextul gramatical. Spre deosebire de rădăcină sau stem (obținută prin simpla tăiere a terminațiilor), lema este o formă corectă din punct de vedere lingvistic, așa cum apare în dicționar.
De exemplu, cuvintele „mergeam”, „mergi” și „merseseră” sunt toate lematizate la forma „merge”. Lematizarea este utilizată pentru a îmbunătăți acuratețea în sarcini precum căutarea de informații, analiza sentimentelor, traducerea automată și clasificarea textelor. Prin standardizarea formelor cuvintelor, sistemele AI pot înțelege mai bine semnificația și relațiile semantice din limbajul natural.