Setul de date este o colecție organizată de informații utilizată în procesul de antrenare, validare și testare a modelelor de inteligență artificială și învățare automată. Datele pot fi structurate (tabele, baze de date), semi-structurate (fișiere JSON, XML) sau nestructurate (imagini, text, audio, video) și sunt esențiale pentru ca un model să învețe tipare, relații și comportamente din lumea reală.
Un set de date de calitate influențează direct performanța modelului AI. De obicei, acesta este împărțit în trei subseturi: setul de antrenament (pentru învățare), setul de validare (pentru ajustarea hiperparametrilor) și setul de testare (pentru evaluare finală). În funcție de domeniu, seturile de date pot fi etichetate manual sau automat și pot varia de la câteva sute la milioane de exemple.