···11#import "@preview/fletcher:0.5.8": diagram, node, edge
2233+#set terms(indent: 10pt)
44+35== Bases théoriques du _Reinforcement Learning_
4657L'apprentissage par renforcement, ou _Reinforcement Learning_, permet de développer des programmes sans expliciter leur logique: on décrit plutôt quatre choses, qui vont permettre à la logique d'émerger pendant la phase d'entraînement:
···56585759#exhaustive_memory_table(filled: false)[ Exemple d'agent à mémoire exhaustive pour un "C'est plus ou c'est moins" dans ${ 0, 1, 2 }$, avec pour solution 2 ]
58605959-L'entraînement consiste donc ici en l'exploration de l'entièreté des états possibles de l'environnement, et, pour chaque état, le calcul du coût associé à chaque action possible. On remplit la colonne "Action à effectuer" avec l'action associée au coût le plus bas.
6161+L'entraînement consiste donc ici en l'exploration de l'entièreté des états possibles de l'environnement, et, pour chaque état, le calcul du coût associé à chaque action possible.
60626163Il faut définir la fonction de coût, souvent appelée $L$ pour _loss_:
6264···66686769avec $E$ l'ensemble des états possibles de l'environnement, et $S$ un ensemble muni d'un ordre total (on utilise souvent $[0, 1]$)
68706969-Quand on parle de "coût d'une action", on parle du coût de l'état résultant de l'application de l'action en question à l'état actuel
7171+Quand on parle de "coût d'une action", on parle du coût de l'état résultant de l'application de l'action en question à l'état actuel//: $ L: E times A -> S = (e, a) |-> L(a(e))$
7272+7373+On remplit la colonne "Action à effectuer" avec l'action au coût le plus bas:
70747175#exhaustive_memory_table(filled: true)[ Entraînement terminé, avec pour fonction coût $L$ la distance à la solution ]
7276···79838084==== Deep Reinforcement Learning
81858282-Une façon de remédier à ce problème de dimensions est de remplacer le tableau exhaustif par un réseau de neurones.
8686+Une façon de remédier à ce problème de dimensions est de remplacer le tableau exhaustif par un réseau de neurones:
8787+8888+/ État actuel: devient la couche d'entrée
8989+/ Meilleure action: devient la couche de sortie
9090+/ Coûts associés: deviennent les neurones des couches cachées
9191+/ Le remplissage du tableau: devient la rétropropagation pendant l'entraînement
9292+839384948595=== Tendances à la "tricherie" des agents