La biologie qui sous-tend l'apprentissage du renforcement peut être consultée sur les sites suivants : Operant conditioning, et Reward

L'apprentissage par renforcement (RL) consiste à enseigner à un agent logiciel comment se comporter dans un environnement en lui disant à quel point il se comporte bien. Il s'agit d'un domaine de l'apprentissage automatique inspiré de la psychologie comportementaliste.

L'apprentissage de renforcement est différent de l'apprentissage supervisé car les entrées et les sorties correctes ne sont jamais montrées. De plus, l'apprentissage de renforcement apprend généralement au fur et à mesure (apprentissage en ligne) contrairement à l'apprentissage supervisé. Cela signifie qu'un agent doit choisir entre explorer et s'en tenir à ce qu'il connaît le mieux.