···11#import "@preview/fletcher:0.5.8": diagram, node, edge
2233+#let comment = content => text(fill: gray)[(Note: #content)]
44+35#show terms: it => grid(
46 columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left),
57 ..it.children.map(item =>
···9698/ Le remplissage du tableau: devient la rétropropagation pendant l'entraînement
9799981009999-100101=== Tendances à la "tricherie" des agents
101102102103Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes).
103104104104-Un exemple populaire est l'expérience de pensée du Maximiseur de trombones @trombones
105105+==== Sous-spécification de la fonction coût
106106+107107+#comment[ Bof cette partie ]
105108109109+Un exemple populaire est l'expérience de pensée du Maximiseur de trombones @trombones: un agent avec pour environnement le monde réel, pour actions "prendre des décisions"; "envoyer des emails"; etc. et pour fonction récompense (une fonction à maximiser au lieu de minimiser) "le nombre de trombones existant sur Terre", finirait possiblement par réduire en escalavage tout être vivant capable de produire des trombones: la fonction coût est sous-spécifiée
110110+111111+==== Bug dans un moteur de physique
112112+113113+Plus
106114107115108116== Application en robotique