Continue rapport · gwen.works/internshiplogs@62998f1

+5 -5

rapport/context.typ

··· 469 469 470 470 471 471 472 - La méthode TRPO définit la mise à jour de $Q$ avec un $Q'$ qui maximise le _surrogate advantage_ @trpo-openai, sous une contrainte limitant l'ampleur des modifications individuelles, ce qui procure une stabilité à l'algorithme, et évite qu'un seul "faux pas" dégrade violemment la performance de la politique. 472 + La méthode TRPO définit la mise à jour de $pi$ avec un $pi'$ qui maximise le _surrogate advantage_ @trpo-openai, sous une contrainte limitant l'ampleur des modifications individuelles, ce qui procure une stabilité à l'algorithme, et évite qu'un seul "faux pas" dégrade violemment la performance de la politique. 473 473 474 474 $ 475 - Q' = & cases( 476 - argmax_(q) cL_r (q, Q), 477 - "s.c. distance"(Q', Q) < delta 475 + Pi' = & cases( 476 + argmax_(pi) cL_r (pi, Pi), 477 + "s.c. distance"(Pi', Pi) < delta 478 478 ) 479 479 $ 480 480 481 - Avec $delta$ une limite supérieure de distance entre $Q'$, la nouvelle politique, et $Q$, l'ancienne. 481 + Avec $delta$ une limite supérieure de distance entre $Pi'$, la nouvelle politique, et $Pi$, l'ancienne. 482 482 483 483 ==== Distance entre politiques 484 484

slides/main.pdf

This is a binary file and will not be displayed.

+13 -6

slides/main.typ

··· 1 1 #import "../rapport/utils.typ": dontbreak, todo 2 - #import "../rapport/context.typ": definitions_paths_set, exp 2 + #import "../rapport/context.typ": argmax, cL, definitions_paths_set, exp 3 3 #import "@preview/touying:0.6.1": * 4 4 #import themes.simple: * 5 5 ··· 209 209 #centered[ 210 210 211 211 $ 212 - cal(L)_r (pi', pi) := pause exp_((s_t, a_t)_(t in NN) in cal(C)) pause sum_(t=0)^oo pause (Q_pi (s_t, a_t)) / (Q_pi' (s_t, a_t)) pause A_(pi, r)(s_t, a_t) 212 + cal(L)_r (pi', pi) := pause exp_((s_t, a_t)_(t in NN) in cal(C)) pause sum_(t=0)^oo pause (Q_pi (s_t, a_t)) / (Q_pi' (s_t, a_t)) A_(pi, r)(s_t, a_t) 213 213 $ 214 214 215 215 ] 216 216 217 - #title-slide[ 218 - == Optimisation de $Pi$ 219 - Mise à jour de la politique RL 220 - ] 217 + == Mise à jour de $Pi$ 218 + 219 + #centered[ 220 + 221 + $ 222 + Pi' = & cases( 223 + argmax_(pi) cL_r (pi, Pi), 224 + "s.c. distance"(Pi', Pi) < delta 225 + ) 226 + $ 221 227 228 + ]

Configure Feed

Configure Feed