···11#import "@preview/fletcher:0.5.8": diagram, node, edge
2233#let comment = content => text(fill: gray)[(Note: #content)]
44+#let refneeded = text(fill: luma(100), [[Réf. nécéssaire]])
4556#show terms: it => grid(
67 columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left),
···9899/ Le remplissage du tableau: devient la rétropropagation pendant l'entraînement
99100100101101101-=== Nécéssité de la validation
102102+=== Tendances à la "tricherie" des agents
102103103103-Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes).
104104+Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement #refneeded: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes).
104105105106==== Sous-spécification de la fonction coût
106107···126127127128#comment[ Rien à voir mais je me dis, c'est enfait un moyen de trouver des bugs dans un physics engine ! ça me fait penser au Fuzzing un peu, mais avec un NN plutôt que du hasard contrôlé ]
128129129129-====
130130+==== La validation comme méthode de mitigation
131131+#comment[ça se dit mitigation en français?]
132132+133133+134134+130135131136== Application en robotique
132137