Continue rapport · gwen.works/internshiplogs@389d247

gwen.works / internshiplogs

fork

this repo has no description

fork

+10 -1

2 changed files

expand all

rapport

context.typ

main.pdf

+10 -1

rapport/context.typ

··· 1 1 #import "@preview/fletcher:0.5.8": diagram, node, edge 2 2 3 - #set terms(indent: 10pt) 3 + #show terms: it => grid( 4 + columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left), 5 + ..it.children.map(item => 6 + (strong(item.term), item.description) 7 + ).flatten() 8 + ) 4 9 5 10 == Bases théoriques du _Reinforcement Learning_ 6 11 ··· 93 98 94 99 95 100 === Tendances à la "tricherie" des agents 101 + 102 + Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes). 103 + 104 + Un exemple populaire est l'expérience de pensée du Maximiseur de trombones @trombones 96 105 97 106 98 107

rapport/main.pdf

This is a binary file and will not be displayed.

Configure Feed

Configure Feed