Modelul multimodal este un tip de model de inteligență artificială capabil să proceseze și să integreze simultan mai multe tipuri de date – cum ar fi text, imagine, sunet sau video – pentru a înțelege mai profund și a răspunde în mod complex la o sarcină. Aceste modele sunt concepute pentru a reflecta modul în care oamenii percep și interpretează lumea prin multiple canale senzoriale.
Prin combinarea informațiilor din surse diferite, modelele multimodale oferă o înțelegere contextuală mai bogată și o capacitate crescută de raționament. Sunt utilizate în aplicații precum descrierea automată a imaginilor, asistenți conversaționali vizuali, recunoașterea emoțiilor sau căutarea semantică între moduri diferite de date. Modelele avansate, precum GPT-4 sau Gemini, folosesc arhitecturi multimodale pentru a oferi interacțiuni mai naturale și mai inteligente cu utilizatorii.