Q-Learning este un algoritm fundamental de învățare prin întărire (reinforcement learning) care permite unui agent să învețe o politică optimă de acțiune într-un mediu, fără a avea nevoie de un model explicit al acestuia. Algoritmul funcționează prin estimarea valorii acțiunilor posibile în fiecare stare, reprezentată prin funcția Q, care cuantifică recompensa așteptată acumulată în timp dacă agentul execută o anumită acțiune și apoi urmează o politică optimă. Actualizarea funcției Q se realizează iterativ, pe baza experiențelor obținute prin interacțiunea cu mediul, folosind o formulă de recurență care incorporează recompensa imediată și valoarea maximă estimată pentru stările viitoare.
Q-Learning este un algoritm off-policy, ceea ce înseamnă că poate învăța strategia optimă independent de acțiunile curente ale agentului, oferind flexibilitate în explorare și exploatare. Este aplicat pe scară largă în robotică, jocuri, optimizarea proceselor și sisteme autonome, datorită capacității sale de a gestiona medii complexe și stări multiple, chiar și atunci când modelul mediului nu este cunoscut în prealabil.