this repo has no description
0
fork

Configure Feed

Select the types of activity you want to include in your feed.

Continue rapport

+10 -1
+10 -1
rapport/context.typ
··· 1 1 #import "@preview/fletcher:0.5.8": diagram, node, edge 2 2 3 - #set terms(indent: 10pt) 3 + #show terms: it => grid( 4 + columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left), 5 + ..it.children.map(item => 6 + (strong(item.term), item.description) 7 + ).flatten() 8 + ) 4 9 5 10 == Bases théoriques du _Reinforcement Learning_ 6 11 ··· 93 98 94 99 95 100 === Tendances à la "tricherie" des agents 101 + 102 + Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes). 103 + 104 + Un exemple populaire est l'expérience de pensée du Maximiseur de trombones @trombones 96 105 97 106 98 107
rapport/main.pdf

This is a binary file and will not be displayed.