···122122/ Coûts associés: deviennent les neurones des couches cachées
123123/ Le remplissage du tableau: devient la rétropropagation pendant l'entraînement
124124125125+=== Difficultés liées à l'implémentation de la fonction coût
125126126126-=== Tendances à la "tricherie" des agents
127127+==== Tendances à la "tricherie" des agents
127128128129Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement #refneeded: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes).
130130+131131+Dans le cas de la robotique, cela arrive particulièrement souvent, et il faut donc un simulateur qui soit suffisamment réaliste.
129132130133==== Sous-spécification de la fonction coût
131134···668671669672On est donc dans un cas où il est très utile de
670673671671-Un environnement de RL#footnote[Reinforcement Learning] ne se résume pas à son moteur de physique: il faut également charger des modèles 3D, le modèle du robot (qui doit être contrôlable par les actions), et également, pendant les phases de développement, avoir un moteur de rendu graphique, une interface et des outils de développement.
674674+Un environnement de RL#footnote[Reinforcement Learning] ne se résume pas à son moteur de physique: il faut également charger des modèles 3D, le modèle du robot (qui doit être contrôlable par les actions, on fait donc une émulation de la partie logicielle du robot), et également, pendant les phases de développement, avoir un moteur de rendu graphique, une interface et des outils de développement.
672675673673-Cet ensemble s'appelle un _simulateur_. Quand le simulateur simule égalment la partie logicielle, on parle de _simulateur système_.
676676+Cet ensemble s'appelle un _simulateur système_.
674677675678676679=== Spécification de la tâche