Continue rapport · gwen.works/internshiplogs@d4df7a5

+19 -18

1 changed file

expand all

rapport

context.typ

+19 -18

rapport/context.typ

··· 266 266 On notera que, selon $M$, on peut avoir $cal(C) subset.neq (S times A)^NN$: par exemple, certains états de l'environnement peuvent représenter des "impasses", où il est impossible d'évoluer vers un autre état, peut importe l'action choisie. 267 267 268 268 On note aussi que $cal(C)$ et $cal(C)_pi$ sont dénombrables: Ils sont construits à partir de $(S times A)^NN$ et $S$, et $A$ & $NN$ sont également dénombrables#footnote[ 269 - On a $card cal(C) <= card((S times A)^NN) = card(S times A)^(card NN) = (card S card A)^(card NN) <= (aleph_0)^(card NN) = attach(aleph_0, tl: 2) = aleph_0$ 269 + On a $card cal(C) <= card((S times A)^NN) = card(S times A)^(card NN) = (card S card A)^(card NN) <= (aleph_0)^(card NN) = attach(aleph_0, tl: 2) = aleph_0$. De plus, $cal(C)_pi subset cal(C)$, donc $card cal(C)_pi <= card cal(C) <= aleph_0$ 270 270 ] 271 271 272 272 #align(center)[ ··· 284 284 [ 285 285 #todo[Pas clair] 286 286 287 - Notamment, les espérances le long d'un chemin, notées $inline(exp_(s_0, a_0, ...))$ dans @trpo, sont dénotées ici par une opération-sur-ensemble usuelle#footnote[d'autres exemples d'"opérations-sur-ensemble" sont $sum_(x in RR)$ ou $product_(n in NN)$, par exemple. L'"espérance-sur-ensemble" est définie par le passage de @eta-sum-definition à @eta-exp-definition], avec $exp_(c in cal(C))$. De même, la notation $inline(exp_(s_0, a_0, ... ~ pi))$ est dénotée $exp_(c ~ pi in cal(C))$ et explicitée après @eta-exp-definition. 287 + Notamment, les espérances le long d'un chemin, notées $inline(exp_(s_0, a_0, ...))$ dans @trpo, sont dénotées ici par une opération-sur-ensemble usuelle#footnote[d'autres exemples d'"opérations-sur-ensemble" sont $sum_(x in RR)$ ou $product_(n in NN)$, par exemple.], avec $exp_(c in cal(C))$. De même, la notation $inline(exp_(s_0, a_0, ... ~ pi))$ est dénotée $exp_(c ~ pi in cal(C))$ et explicitée après @eta-exp-definition. 288 288 289 289 Dans la documentation de _OpenAI Spinning Up_ (citation "@trpo-openai"), les espérances sont notées $op(E, limits: #true)_(s, a ~ pi)$, ce qui correspond à faire une espérance _le long_ de tout chemin: cela correspond ici à $exp_(c ~ pi in cal(C)) sum_(t=0)^oo dots.c$. 290 290 ] ··· 331 331 332 332 // Le >= #h(-1pt) ""_f dans la footnote c'est un hack pour mettre f en subscript inline de >= , sinon ça passe en dessous et c'est moche 333 333 334 - L'avantage $A_(pi, r)(s, a)$ mesure à quel point il est préférable de choisir l'action $a$ quand on est dans l'état $s$ (pour la politique $pi$, avec "préférable" au sens de $>=_(r(M(s, dot.c)))$#footnote[En posant, pour toute fonction $f: I -> O$, avec $O$ ordonné par $>=$: $forall i in I^2, quad i_1 op(>=#h(-1pt) ""_f) i_2 := f(i_1) >= f(i_2)$. Ici donc, on compare les politiques selon $a |-> r(M(s, a))$. Autrement dit, la récompense associé à l'état obtenu après le choix d'une action, depuis l'état $s$]) 334 + L'avantage $A_(pi, r)(s, a)$ mesure à quel point il est préférable de choisir l'action $a$ quand on est dans l'état $s$ (pour la politique $pi$, avec "préférable" au sens de#footnote[En posant, pour toute fonction $f: I -> O$, avec $O$ ordonné par $>=$: $forall i in I^2, quad i_1 op(>=#h(-1pt) ""_f) i_2 := f(i_1) >= f(i_2)$. Ici donc, on compare les politiques selon $a |-> r(M(s, a))$. Autrement dit, la récompense associé à l'état obtenu après le choix d'une action, depuis l'état $s$] $>=_(r(M(s, dot.c)))$) 335 + 336 + Pour calculer $A_(pi, r)(s, a)$, on regarde l'espérance des récompenses cumulées pour tout chemin commençant par $s$, et on la compare à celle pour tout chemin commençant par $M(s, a)$ 337 + 338 + $ 339 + A_(pi, r)(s, a) := 340 + underbracket( 341 + exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(C) \ s_0 = s \ s_1 = M(s_0, a)) sum_(t=0)^oo gamma^t r(s_t), 342 + Q(s, a) 343 + ) - underbracket( 344 + exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(C) \ s_0 = s) sum_(t=0)^oo gamma^t r(s_t), 345 + V(s) 346 + ) 347 + $ 348 + 335 349 336 350 On peut visualiser ce calcul ainsi: 337 351 ··· 383 397 node((5, -0.5)) 384 398 }) 385 399 386 - Pour calculer $A_(pi, r)(s, a)$, on regarde l'espérance des récompenses cumulées pour tout chemin commençant par $s$, et on la compare à celle pour tout chemin commençant par $M(s, a)$ 387 - 388 - $ 389 - A_(pi, r)(s, a) := 390 - underbracket( 391 - exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(C) \ s_0 = s \ s_1 = M(s_0, a)) sum_(t=0)^oo gamma^t r(s_t), 392 - Q(s, a) 393 - ) - underbracket( 394 - exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(C) \ s_0 = s) sum_(t=0)^oo gamma^t r(s_t), 395 - V(s) 396 - ) 397 - $ 398 - 399 400 400 401 401 402 On considère tout les chemins à partir de l'état $s_t$, et l'on regarde l'espérance... ··· 423 424 424 425 === _Surrogate advantage_ $cL$ 425 426 426 - Il est théoriquement possible d'utiliser $A$ pour optimiser une politique, en maximisant sa valeur à un état donné: 427 + Il est théoriquement possible d'utiliser $A$ pour optimiser une politique, en maximisant sa valeur: 427 428 428 429 #diagram( 429 430 caption: [Boucle d'entraînement], ··· 451 452 a_(t+1)^* & := argmax_(a in A) A_(Pi, R)(s_(t+1), a) \ 452 453 $ 453 454 454 - Mais, en pratique, des erreurs d'approximations peuvent rendre $A_(Pi, R)(s_(t+1), a_(t+1)^*)$ négatif, ce qui empêche de s'en servir pour définir une valeur de $Q_(Pi)$ @trpo 455 + Mais, en pratique, des erreurs d'approximation peuvent rendre $A_(Pi, R)(s_(t+1), a_(t+1)^*)$ négatif, ce qui empêche de s'en servir pour définir une valeur de $Q_(Pi)$ @trpo 455 456 456 457 457 458 Le _surrogate advantage_ détermine la performance d'une politique par rapport à une autre @trpo-openai

Configure Feed

Configure Feed