···469469470470471471472472-La méthode TRPO définit la mise à jour de $Q$ avec un $Q'$ qui maximise le _surrogate advantage_ @trpo-openai, sous une contrainte limitant l'ampleur des modifications individuelles, ce qui procure une stabilité à l'algorithme, et évite qu'un seul "faux pas" dégrade violemment la performance de la politique.
472472+La méthode TRPO définit la mise à jour de $pi$ avec un $pi'$ qui maximise le _surrogate advantage_ @trpo-openai, sous une contrainte limitant l'ampleur des modifications individuelles, ce qui procure une stabilité à l'algorithme, et évite qu'un seul "faux pas" dégrade violemment la performance de la politique.
473473474474$
475475- Q' = & cases(
476476- argmax_(q) cL_r (q, Q),
477477- "s.c. distance"(Q', Q) < delta
475475+ Pi' = & cases(
476476+ argmax_(pi) cL_r (pi, Pi),
477477+ "s.c. distance"(Pi', Pi) < delta
478478 )
479479$
480480481481-Avec $delta$ une limite supérieure de distance entre $Q'$, la nouvelle politique, et $Q$, l'ancienne.
481481+Avec $delta$ une limite supérieure de distance entre $Pi'$, la nouvelle politique, et $Pi$, l'ancienne.
482482483483==== Distance entre politiques
484484
slides/main.pdf
This is a binary file and will not be displayed.
+13-6
slides/main.typ
···11#import "../rapport/utils.typ": dontbreak, todo
22-#import "../rapport/context.typ": definitions_paths_set, exp
22+#import "../rapport/context.typ": argmax, cL, definitions_paths_set, exp
33#import "@preview/touying:0.6.1": *
44#import themes.simple: *
55···209209#centered[
210210211211 $
212212- cal(L)_r (pi', pi) := pause exp_((s_t, a_t)_(t in NN) in cal(C)) pause sum_(t=0)^oo pause (Q_pi (s_t, a_t)) / (Q_pi' (s_t, a_t)) pause A_(pi, r)(s_t, a_t)
212212+ cal(L)_r (pi', pi) := pause exp_((s_t, a_t)_(t in NN) in cal(C)) pause sum_(t=0)^oo pause (Q_pi (s_t, a_t)) / (Q_pi' (s_t, a_t)) A_(pi, r)(s_t, a_t)
213213 $
214214215215]
216216217217-#title-slide[
218218- == Optimisation de $Pi$
219219- Mise à jour de la politique RL
220220-]
217217+== Mise à jour de $Pi$
218218+219219+#centered[
220220+221221+$
222222+ Pi' = & cases(
223223+ argmax_(pi) cL_r (pi, Pi),
224224+ "s.c. distance"(Pi', Pi) < delta
225225+ )
226226+$
221227228228+]