Modelele de transformare (Transformer Models) sunt o clasă de arhitecturi de rețele neuronale introduse în 2017 prin lucrarea „Attention is All You Need” și au revoluționat domeniul procesării limbajului natural (NLP). Aceste modele folosesc mecanismul de atenție pentru a procesa întregi secvențe de date simultan (nu recursiv), permițând înțelegerea relațiilor pe termen lung dintre elementele dintr-un text.
Arhitectura Transformer stă la baza celor mai avansate modele AI actuale, precum BERT, GPT, T5, RoBERTa, XLNet sau LLaMA. Aceste modele sunt extrem de eficiente în sarcini precum generare de text, traducere automată, clasificare, sumarizare, completare automată și multe altele. Prin scalare, antrenare pe seturi mari de date și ajustare fină (fine-tuning), modelele Transformer oferă performanță de top în numeroase aplicații ale inteligenței artificiale, atât în text, cât și în date multimodale (text + imagine, video, etc.).