this repo has no description
0
fork

Configure Feed

Select the types of activity you want to include in your feed.

Continue rapport

+7 -4
+1 -1
pages_count
··· 1 - 43 1 + 44
+6 -3
rapport/context.typ
··· 122 122 / Coûts associés: deviennent les neurones des couches cachées 123 123 / Le remplissage du tableau: devient la rétropropagation pendant l'entraînement 124 124 125 + === Difficultés liées à l'implémentation de la fonction coût 125 126 126 - === Tendances à la "tricherie" des agents 127 + ==== Tendances à la "tricherie" des agents 127 128 128 129 Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement #refneeded: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes). 130 + 131 + Dans le cas de la robotique, cela arrive particulièrement souvent, et il faut donc un simulateur qui soit suffisamment réaliste. 129 132 130 133 ==== Sous-spécification de la fonction coût 131 134 ··· 668 671 669 672 On est donc dans un cas où il est très utile de 670 673 671 - Un environnement de RL#footnote[Reinforcement Learning] ne se résume pas à son moteur de physique: il faut également charger des modèles 3D, le modèle du robot (qui doit être contrôlable par les actions), et également, pendant les phases de développement, avoir un moteur de rendu graphique, une interface et des outils de développement. 674 + Un environnement de RL#footnote[Reinforcement Learning] ne se résume pas à son moteur de physique: il faut également charger des modèles 3D, le modèle du robot (qui doit être contrôlable par les actions, on fait donc une émulation de la partie logicielle du robot), et également, pendant les phases de développement, avoir un moteur de rendu graphique, une interface et des outils de développement. 672 675 673 - Cet ensemble s'appelle un _simulateur_. Quand le simulateur simule égalment la partie logicielle, on parle de _simulateur système_. 676 + Cet ensemble s'appelle un _simulateur système_. 674 677 675 678 676 679 === Spécification de la tâche