···475475476476477477478478+478479==== _Trust Region Policy Optimization_
479480480481···486487487488$
488489Q' = & cases(
489489- argmax_(q) cL(q, Q),
490490+ argmax_(q) cL_r (q, Q),
490491"s.c. distance"(Q', Q) < delta
491492)
492493$
···498499Il existe plusieurs manières de mesurer l'écart entre deux distributions de probabilité, dont notamment la _divergence de Kullback-Leibler_, aussi appelée entropie relative @kullback-leibler @kullback-leibler2:
499500500501$
501501-D_"KL" (P || Q) := sum_(x in cal(X)) P(x) log P(x) / Q(x)
502502+D_"KL" (P || P') := sum_(x in cal(X)) P(x) log P(x) / P'(x)
502503$
503504504504-Avec $cal(X)$ l'espace des échantillons dont $P$ et $Q$ mesurent la probabilité: dans notre cas, $cal(X) = S times A$.
505505+Avec $cal(X)$ l'espace des échantillons et $P, P'$ deux distributions de probabilité sur celui-ci. Dans notre cas, $cal(X) = S times A$,
505506506507507508508508-Pour évaluer cette distance, on regarde la plus grande des distances entre des paires de politiques $Q$ et $Q'$ ayant été restreintes à ${s} times A$, pour tout état $s in S$, c'est-à-dire @trpo
509509+Pour évaluer cette distance, on regarde la plus grande des distances entre des paires de distributions de probabilité de politiques $Q_cal(P)$ et $Q_cal(P)'$ pour $s in S$ fixé @trpo
509510510511$
511511-max_(s in S) D_"KL" (Q'(s, dot) || Q(s, dot)) < delta
512512+max_(s in S) D_"KL" (Q_cal(P)' (s, dot) || Q_cal(P) (s, dot)) < delta
512513$
513514514515516516+En notant $Q_p (s, dot) := a |-> Q_p (s, a)$. On a donc ici "$cal(X) = A$" dans la définition de $D_"KL"$
515517516516-Ce qui revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chaqune de ses actions_.
518518+#section[Pourquoi faire le maximum sur chaque $s in S$ ?]
519519+520520+Ce maximum revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chaqune de ses actions_.
517521518522#comment[C'est ma théorie ça, faudrait etre sure que le papier ne donne pas d'explications]
519523···541545542546On a $D_"KL" (Q, Q') = 0$ (cf @dkl-zero), alors qu'il y a eu une modification très importante des probabilités de choix de l'action 1 et 2 dans tout les états possibles : si on imagine $Q(s, 1) = Q(s, 2) = 1 slash 4$, on a après modification $Q'(s, 1) = 1 slash 2$ et $Q'(s, 2) = 1 slash 8$.
543547548548+#section[Région de confiance]
544549545545-546546-Cette contrainte définit un ensemble réduit de $Q'$ acceptables comme nouvelle politique, aussi appelé une _trust region_ (région de confiance), d'où la méthode d'optimisation tire son nom @trpo.
550550+Cette contrainte définit un ensemble réduit de $cal(P)'$ acceptables comme nouvelle politique, aussi appelé une _trust region_ (région de confiance), d'où la méthode d'optimisation tire son nom @trpo.
547551548552#let ddot = [ #sym.dot #h(-1em/16) #sym.dot ]
549553550550-En pratique, l'optimisation sous cette contrainte est trop demandeuse en puissance de calcul, on utilise donc une approximation de $max_(s in S) D_"KL" (dot || ddot)$, avec l'espérance au lieu du maximum @trpo
554554+En pratique, l'optimisation sous cette contrainte est trop demandeuse en puissance de calcul, on utilise plutôt l'espérance @trpo
551555552556$
553553-overline(D_"KL") := bb(E)_(s in S) D_"KL" (Q(s, a) || Q'(s, a))
554554-557557+overline(D_"KL") := bb(E)_(s in S) D_"KL" (Q(s, dot) || Q'(s, dot))
555558$
556559557560