Continue rapport · gwen.works/internshiplogs@80b1e53

gwen.works / internshiplogs

fork

this repo has no description

fork

+10 -2

2 changed files

expand all

rapport

context.typ

main.pdf

+10 -2

rapport/context.typ

··· 1 1 #import "@preview/fletcher:0.5.8": diagram, node, edge 2 2 3 + #let comment = content => text(fill: gray)[(Note: #content)] 4 + 3 5 #show terms: it => grid( 4 6 columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left), 5 7 ..it.children.map(item => ··· 96 98 / Le remplissage du tableau: devient la rétropropagation pendant l'entraînement 97 99 98 100 99 - 100 101 === Tendances à la "tricherie" des agents 101 102 102 103 Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes). 103 104 104 - Un exemple populaire est l'expérience de pensée du Maximiseur de trombones @trombones 105 + ==== Sous-spécification de la fonction coût 106 + 107 + #comment[ Bof cette partie ] 105 108 109 + Un exemple populaire est l'expérience de pensée du Maximiseur de trombones @trombones: un agent avec pour environnement le monde réel, pour actions "prendre des décisions"; "envoyer des emails"; etc. et pour fonction récompense (une fonction à maximiser au lieu de minimiser) "le nombre de trombones existant sur Terre", finirait possiblement par réduire en escalavage tout être vivant capable de produire des trombones: la fonction coût est sous-spécifiée 110 + 111 + ==== Bug dans un moteur de physique 112 + 113 + Plus 106 114 107 115 108 116 == Application en robotique

rapport/main.pdf

This is a binary file and will not be displayed.

Configure Feed

Configure Feed