Învățarea prin consolidare (Reinforcement Learning) este o metodă de învățare automată în care un agent inteligent învață să ia decizii prin interacțiune directă cu un mediu. Agentul primește recompense sau penalizări în funcție de acțiunile sale, iar scopul este de a maximiza recompensa totală pe termen lung prin învățarea unei politici optime de comportament.
Această abordare este inspirată din modul în care învață oamenii și animalele, fiind aplicată cu succes în robotică, jocuri, vehicule autonome și sisteme de control inteligent. Învățarea prin consolidare este deosebit de eficientă în medii dinamice și nestructurate, unde acțiunile au consecințe pe termen lung și nu există exemple etichetate pentru fiecare decizie.