Stemming-ul este o tehnică fundamentală în procesarea limbajului natural (NLP) care constă în reducerea cuvintelor la forma lor de bază sau „rădăcină” (stem), prin eliminarea sufixelor sau prefixelor. Scopul este de a trata diferite forme gramaticale ale unui cuvânt (ex: „cântărește”, „cântat”, „cântând”) ca o singură entitate, pentru a îmbunătăți analiza textuală.
Această metodă este utilizată în aplicații precum motoare de căutare, clasificarea documentelor, extragerea de informații și analiza sentimentelor. Deși este rapidă și eficientă, stemming-ul poate fi mai puțin precis decât lematizarea, deoarece nu ține cont de contextul lingvistic și poate produce forme de bază care nu sunt cuvinte reale. Cu toate acestea, rămâne o soluție practică pentru simplificarea datelor textuale în multe sisteme NLP.