Apprentissage par renforcement

La biologie qui sous-tend l'apprentissage du renforcement peut être consultée sur les sites suivants : Operant conditioning, et Reward

L'apprentissage par renforcement (RL) consiste à enseigner à un agent logiciel comment se comporter dans un environnement en lui disant à quel point il se comporte bien. Il s'agit d'un domaine de l'apprentissage automatique inspiré de la psychologie comportementaliste.

L'apprentissage de renforcement est différent de l'apprentissage supervisé car les entrées et les sorties correctes ne sont jamais montrées. De plus, l'apprentissage de renforcement apprend généralement au fur et à mesure (apprentissage en ligne) contrairement à l'apprentissage supervisé. Cela signifie qu'un agent doit choisir entre explorer et s'en tenir à ce qu'il connaît le mieux.

Introduction

Un système d'apprentissage par renforcement est constitué d'une politique ( π{\displaystyle \pi } ), d'une fonction de récompense ({\displaystyle R} R ), d'une fonction de valeur ( v ){\displaystyle v} et d'un modèle optionnel de l'environnement.

Une politique indique à l'agent ce qu'il doit faire dans une certaine situation. Il peut s'agir d'un simple tableau de règles, ou d'une recherche compliquée pour trouver la bonne action. Les politiques peuvent même être stochastiques, ce qui signifie qu'au lieu de règles, la politique attribue des probabilités à chaque action. Une politique peut, à elle seule, faire faire des choses à un agent, mais elle ne peut pas apprendre toute seule.

Une fonction de récompense définit l'objectif pour un agent. Elle prend un état (ou un état et l'action entreprise dans cet état) et rend un numéro appelé la récompense, qui indique à l'agent à quel point il est bon d'être dans cet état. Le travail de l'agent consiste à obtenir la plus grande récompense possible à long terme. Si une action donne lieu à une faible récompense, l'agent prendra probablement une meilleure mesure à l'avenir. La biologie utilise des signaux de récompense comme le plaisir ou la douleur pour s'assurer que les organismes restent en vie pour se reproduire. Les signaux de récompense peuvent également être stochastiques, comme une machine à sous dans un casino, où ils paient parfois et parfois non.

Une fonction de valeur indique à un agent le montant de la récompense qu'il obtiendra suite à une politique π {\displaystyle \pi {\displaystyle \pi }} à partir de l'état s {\displaystyle s}{\displaystyle s} . Elle représente la mesure dans laquelle il est souhaitable d'être dans un certain état. Étant donné que la fonction de valeur n'est pas donnée directement à l'agent, celui-ci doit faire une bonne estimation en fonction de la récompense qu'il a obtenue jusqu'à présent. L'estimation de la fonction de valeur est la partie la plus importante de la plupart des algorithmes d'apprentissage du renforcement.

Un modèle est la copie mentale de l'environnement par l'agent. Il est utilisé pour planifier les actions futures.

Sachant cela, nous pouvons parler de la boucle principale pour un épisode d'apprentissage de renforcement. L'agent interagit avec l'environnement par pas de temps discrets. Pensez-y comme le "tic-tac" d'une horloge. Avec le temps discret, les choses ne se produisent que pendant les "tics" et les "tocs", et non entre les deux. A chaque instant t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... }{\displaystyle t=0,1,2,3,...} l'agent observe l'état de l'environnement S t{\displaystyle S_{t}} et choisit une action A t{\displaystyle A_{t}} basée sur une politique π{\displaystyle \pi } . Au pas de temps suivant, l'agent reçoit un signal de récompense R t + 1{\displaystyle R_{t+1}} et une nouvelle observation S t + 1{\displaystyle S_{t+1}} . La fonction de valeur v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} est mise à jour à l'aide de la récompense. Cette opération se poursuit jusqu'à ce qu'un état terminal S T {\displaystyle S_{T}}{\displaystyle S_{T}} soit atteint.

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3