p -> pi · gwen.works/internshiplogs@dec8472

+12 -13

1 changed file

expand all

rapport

context.typ

+12 -13

rapport/context.typ

··· 163 163 164 164 165 165 166 - #todo[== Entraînement par _curriculum_] 166 + // Si jamais ya le time: == Entraînement par _curriculum_ 167 167 168 168 == Évaluation de la performance d'une politique 169 169 ··· 241 241 cal(C)_pi := setbuilder( 242 242 (s_t, a_t)_(t in NN) " avec " 243 243 cases( 244 - & a_0 & = p(s_0), 245 - forall t in NN quad & a_(t+1) & = p(s_t), 244 + & a_0 & = pi(s_0), 245 + forall t in NN quad & a_(t+1) & = pi(s_t), 246 246 forall t in NN quad & s_(t+1) & = M(s_t, a_t) 247 247 ), 248 248 s_0 in S ··· 285 285 #let policyexp = policy => $exp_((c_t)_(t in NN) op(~) #policy op(in) cal(S))$ 286 286 287 287 $ 288 - eta(p, r) := 288 + eta(pi, r) := 289 289 underbracket( 290 290 sum_((c_t)_(t in NN) in cal(S)) 291 291 underbracket( ··· 302 302 On peut également exprimer $eta(p, r)$ comme une espérance. Soit $C$ une variable aléatoire de $cal(S)$. On a (cf @proof-eta-esperance) 303 303 304 304 $ 305 - eta(p, r) = exp(sum_(t=0)^oo gamma^t r(C_t)) 305 + eta(pi, r) = exp(sum_(t=0)^oo gamma^t r(C_t)) 306 306 $ 307 307 308 308 ··· 365 365 $ 366 366 A_(pi, r)(s, a) := 367 367 underbracket( 368 - exp_((s_t, a_t)_(t in NN) op(~) p op(in) cal(S) \ s_0 = s \ s_1 = M(s_0, a)) sum_(t=0)^oo gamma^t r(s_t), 368 + exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(S) \ s_0 = s \ s_1 = M(s_0, a)) sum_(t=0)^oo gamma^t r(s_t), 369 369 Q(s, a) 370 370 ) - underbracket( 371 - exp_((s_t, a_t)_(t in NN) op(~) p op(in) cal(S) \ s_0 = s) sum_(t=0)^oo gamma^t r(s_t), 371 + exp_((s_t, a_t)_(t in NN) op(~) pi op(in) cal(S) \ s_0 = s) sum_(t=0)^oo gamma^t r(s_t), 372 372 V(s) 373 373 ) 374 374 $ ··· 384 384 385 385 === Lien entre $eta$ et $A$ 386 386 387 - Pour une fonction de récompense $r$ donnée, $A$ permet de calculer $eta$ pour une politique $p$ en fonction de la valeur de $eta$ pour une autre politique $p'$ @trpo-advantage-eta-link 387 + Pour une fonction de récompense $r$ donnée, $A$ permet de calculer $eta$ pour une politique $pi$ en fonction de la valeur de $eta$ pour une autre politique $pi'$ @trpo-advantage-eta-link 388 388 389 389 390 390 391 391 392 392 393 393 $ 394 - eta(p', r) & = eta(p, r) + policyexp(p') sum_(t=0)^oo gamma^t A_(pi, r)(c_t) \ 394 + eta(pi', r) & = eta(pi, r) + policyexp(pi') sum_(t=0)^oo gamma^t A_(pi, r)(c_t) \ 395 395 & #[Qui se simplifie en @trpo] \ 396 - & = eta(p, r) + sum 396 + & = eta(pi, r) + sum 397 397 $ 398 398 399 399 ··· 482 482 483 483 Ce maximum revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chacune de ses actions_. 484 484 485 - #comment[C'est ma théorie ça, faudrait etre sure que le papier ne donne pas d'explications] 486 - 487 - Ceci permet d'éviter d'avoir deux politiques jugées similaires par $D_"KL"$ à cause de modifications se "compensant" #refneeded. Par exemple, avec 485 + Ceci permet d'éviter d'avoir deux politiques jugées similaires par $D_"KL"$ à cause de modifications se "compensant". Par exemple, avec 488 486 489 487 #let si = $& quad "si"$ 490 488 #let sinon = $& quad "sinon"$ ··· 699 697 700 698 - C'est un logiciel open-source _communautaire_, qui ne dépend pas du financement d'une grande entreprise 701 699 - Son architecture modulaire permet notamment d'utiliser plusieurs moteurs de simulation physique différents @gazebo-physics-engines, à l'inverse de MuJoCo. 700 + - C'est un _simulateur système_, qui est capable de simuler la partie logicielle du robot en plus de la physique du son modèle 3D. 702 701 703 702 Gazebo possède des plugins officiels pour: 704 703

Configure Feed

Configure Feed