···11#import "@preview/fletcher:0.5.8": diagram, node, edge
2233-#set terms(indent: 10pt)
33+#show terms: it => grid(
44+ columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left),
55+ ..it.children.map(item =>
66+ (strong(item.term), item.description)
77+ ).flatten()
88+ )
49510== Bases théoriques du _Reinforcement Learning_
611···9398949995100=== Tendances à la "tricherie" des agents
101101+102102+Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes).
103103+104104+Un exemple populaire est l'expérience de pensée du Maximiseur de trombones @trombones
961059710698107