···163163164164165165166166-#todo[== Entraînement par _curriculum_]
166166+// Si jamais ya le time: == Entraînement par _curriculum_
167167168168== Évaluation de la performance d'une politique
169169···241241 cal(C)_pi := setbuilder(
242242 (s_t, a_t)_(t in NN) " avec "
243243 cases(
244244- & a_0 & = p(s_0),
245245- forall t in NN quad & a_(t+1) & = p(s_t),
244244+ & a_0 & = pi(s_0),
245245+ forall t in NN quad & a_(t+1) & = pi(s_t),
246246 forall t in NN quad & s_(t+1) & = M(s_t, a_t)
247247 ),
248248 s_0 in S
···285285#let policyexp = policy => $exp_((c_t)_(t in NN) op(~) #policy op(in) cal(S))$
286286287287$
288288- eta(p, r) :=
288288+ eta(pi, r) :=
289289 underbracket(
290290 sum_((c_t)_(t in NN) in cal(S))
291291 underbracket(
···302302On peut également exprimer $eta(p, r)$ comme une espérance. Soit $C$ une variable aléatoire de $cal(S)$. On a (cf @proof-eta-esperance)
303303304304$
305305- eta(p, r) = exp(sum_(t=0)^oo gamma^t r(C_t))
305305+ eta(pi, r) = exp(sum_(t=0)^oo gamma^t r(C_t))
306306$
307307308308···365365$
366366 A_(pi, r)(s, a) :=
367367 underbracket(
368368- exp_((s_t, a_t)_(t in NN) op(~) p op(in) cal(S) \ s_0 = s \ s_1 = M(s_0, a)) sum_(t=0)^oo gamma^t r(s_t),
368368+ exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(S) \ s_0 = s \ s_1 = M(s_0, a)) sum_(t=0)^oo gamma^t r(s_t),
369369 Q(s, a)
370370 ) - underbracket(
371371- exp_((s_t, a_t)_(t in NN) op(~) p op(in) cal(S) \ s_0 = s) sum_(t=0)^oo gamma^t r(s_t),
371371+ exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(S) \ s_0 = s) sum_(t=0)^oo gamma^t r(s_t),
372372 V(s)
373373 )
374374$
···384384385385=== Lien entre $eta$ et $A$
386386387387-Pour une fonction de récompense $r$ donnée, $A$ permet de calculer $eta$ pour une politique $p$ en fonction de la valeur de $eta$ pour une autre politique $p'$ @trpo-advantage-eta-link
387387+Pour une fonction de récompense $r$ donnée, $A$ permet de calculer $eta$ pour une politique $pi$ en fonction de la valeur de $eta$ pour une autre politique $pi'$ @trpo-advantage-eta-link
388388389389390390391391392392393393$
394394- eta(p', r) & = eta(p, r) + policyexp(p') sum_(t=0)^oo gamma^t A_(pi, r)(c_t) \
394394+ eta(pi', r) & = eta(pi, r) + policyexp(pi') sum_(t=0)^oo gamma^t A_(pi, r)(c_t) \
395395 & #[Qui se simplifie en @trpo] \
396396- & = eta(p, r) + sum
396396+ & = eta(pi, r) + sum
397397$
398398399399···482482483483Ce maximum revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chacune de ses actions_.
484484485485-#comment[C'est ma théorie ça, faudrait etre sure que le papier ne donne pas d'explications]
486486-487487-Ceci permet d'éviter d'avoir deux politiques jugées similaires par $D_"KL"$ à cause de modifications se "compensant" #refneeded. Par exemple, avec
485485+Ceci permet d'éviter d'avoir deux politiques jugées similaires par $D_"KL"$ à cause de modifications se "compensant". Par exemple, avec
488486489487#let si = $& quad "si"$
490488#let sinon = $& quad "sinon"$
···699697700698- C'est un logiciel open-source _communautaire_, qui ne dépend pas du financement d'une grande entreprise
701699- Son architecture modulaire permet notamment d'utiliser plusieurs moteurs de simulation physique différents @gazebo-physics-engines, à l'inverse de MuJoCo.
700700+- C'est un _simulateur système_, qui est capable de simuler la partie logicielle du robot en plus de la physique du son modèle 3D.
702701703702Gazebo possède des plugins officiels pour:
704703