Continue rapport · gwen.works/internshiplogs@ff8323f

+14 -11

1 changed file

expand all

rapport

context.typ

+14 -11

rapport/context.typ

··· 475 475 476 476 477 477 478 + 478 479 ==== _Trust Region Policy Optimization_ 479 480 480 481 ··· 486 487 487 488 $ 488 489 Q' = & cases( 489 - argmax_(q) cL(q, Q), 490 + argmax_(q) cL_r (q, Q), 490 491 "s.c. distance"(Q', Q) < delta 491 492 ) 492 493 $ ··· 498 499 Il existe plusieurs manières de mesurer l'écart entre deux distributions de probabilité, dont notamment la _divergence de Kullback-Leibler_, aussi appelée entropie relative @kullback-leibler @kullback-leibler2: 499 500 500 501 $ 501 - D_"KL" (P || Q) := sum_(x in cal(X)) P(x) log P(x) / Q(x) 502 + D_"KL" (P || P') := sum_(x in cal(X)) P(x) log P(x) / P'(x) 502 503 $ 503 504 504 - Avec $cal(X)$ l'espace des échantillons dont $P$ et $Q$ mesurent la probabilité: dans notre cas, $cal(X) = S times A$. 505 + Avec $cal(X)$ l'espace des échantillons et $P, P'$ deux distributions de probabilité sur celui-ci. Dans notre cas, $cal(X) = S times A$, 505 506 506 507 507 508 508 - Pour évaluer cette distance, on regarde la plus grande des distances entre des paires de politiques $Q$ et $Q'$ ayant été restreintes à ${s} times A$, pour tout état $s in S$, c'est-à-dire @trpo 509 + Pour évaluer cette distance, on regarde la plus grande des distances entre des paires de distributions de probabilité de politiques $Q_cal(P)$ et $Q_cal(P)'$ pour $s in S$ fixé @trpo 509 510 510 511 $ 511 - max_(s in S) D_"KL" (Q'(s, dot) || Q(s, dot)) < delta 512 + max_(s in S) D_"KL" (Q_cal(P)' (s, dot) || Q_cal(P) (s, dot)) < delta 512 513 $ 513 514 514 515 516 + En notant $Q_p (s, dot) := a |-> Q_p (s, a)$. On a donc ici "$cal(X) = A$" dans la définition de $D_"KL"$ 515 517 516 - Ce qui revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chaqune de ses actions_. 518 + #section[Pourquoi faire le maximum sur chaque $s in S$ ?] 519 + 520 + Ce maximum revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chaqune de ses actions_. 517 521 518 522 #comment[C'est ma théorie ça, faudrait etre sure que le papier ne donne pas d'explications] 519 523 ··· 541 545 542 546 On a $D_"KL" (Q, Q') = 0$ (cf @dkl-zero), alors qu'il y a eu une modification très importante des probabilités de choix de l'action 1 et 2 dans tout les états possibles : si on imagine $Q(s, 1) = Q(s, 2) = 1 slash 4$, on a après modification $Q'(s, 1) = 1 slash 2$ et $Q'(s, 2) = 1 slash 8$. 543 547 548 + #section[Région de confiance] 544 549 545 - 546 - Cette contrainte définit un ensemble réduit de $Q'$ acceptables comme nouvelle politique, aussi appelé une _trust region_ (région de confiance), d'où la méthode d'optimisation tire son nom @trpo. 550 + Cette contrainte définit un ensemble réduit de $cal(P)'$ acceptables comme nouvelle politique, aussi appelé une _trust region_ (région de confiance), d'où la méthode d'optimisation tire son nom @trpo. 547 551 548 552 #let ddot = [ #sym.dot #h(-1em/16) #sym.dot ] 549 553 550 - En pratique, l'optimisation sous cette contrainte est trop demandeuse en puissance de calcul, on utilise donc une approximation de $max_(s in S) D_"KL" (dot || ddot)$, avec l'espérance au lieu du maximum @trpo 554 + En pratique, l'optimisation sous cette contrainte est trop demandeuse en puissance de calcul, on utilise plutôt l'espérance @trpo 551 555 552 556 $ 553 - overline(D_"KL") := bb(E)_(s in S) D_"KL" (Q(s, a) || Q'(s, a)) 554 - 557 + overline(D_"KL") := bb(E)_(s in S) D_"KL" (Q(s, dot) || Q'(s, dot)) 555 558 $ 556 559 557 560

Configure Feed

Configure Feed