woop · gwen.works/internshiplogs@66768b9

+9 -7

rapport/context.typ

··· 44 44 45 45 Cette technique est particulièrement adaptée au problèmes qui se prêtent à une modélisation type "jeu vidéo", dans le sens où l'agent représente le personnage-joueur, et le coût un certain score, qui est condition de victoire ou défaite. 46 46 47 + En robotique, une approche similaire explore l'espace d'action (en général un courant à envoyer aux moteurs) de façon à optimiser le coût. 48 + 47 49 En robotique, on a des correspondances claires pour ces quatres notions: 48 50 49 51 / Agent: Robot pour lequel on développe le programme de contrôle (appelée une _politique_) 50 - / Actions: Envoi d'ordres aux moteurs // #footnote[il y a techniquement deux principales manières de contrôler un robot: l'envoi de commandes de courant, ou contrôle par puissance, et l'envoi de vitesses cibles, qui laisse la détermination du courant nécéssaire au microcontrolleurs sur le robot même] 52 + / Actions: Envoi d'ordres aux moteurs, souvent le courant électrique à appliquer // #footnote[il y a techniquement deux principales manières de contrôler un robot: l'envoi de commandes de courant, ou contrôle par puissance, et l'envoi de vitesses cibles, qui laisse la détermination du courant nécéssaire au microcontrolleurs sur le robot même] 51 53 / Environnement: Le monde réel. C'est de loin la partie la plus difficile à simuler informatiquement. On utilise des moteurs de simulation physique, dont la multiplicité des implémentations est importante, voir @why_multiple_simulators 52 - / Coût: un ensemble de contraintes ("ne pas endommager le robot"), dont la plupart dépendent de l'objectif de la politique 54 + / Coût: un ensemble de contraintes ("ne pas endommager le robot") et d'évaluations spécifiques à la tâche à effectuer ("s'est déplacé de 5m en avant selon l'axe $x$). 53 55 54 56 === L'entraînement 55 57 ··· 293 295 #let policyexp = policy => $exp_((c_t)_(t in NN) op(~) #policy op(in) cal(S))$ 294 296 295 297 $ 296 - eta(p, r) 298 + eta(p, r) := 297 299 underbracket( 298 300 sum_((c_t)_(t in NN) in cal(S)) 299 301 underbracket( ··· 392 394 393 395 ==== Lien entre $eta$ et $A$ 394 396 395 - Pour une fonction de récompense $r$ donnée, $A$ permet de calculer $eta$ pour une politique $p'$ en fonction de la valeur de $eta$ pour une autre politique $p'$ @trpo-advantage-eta-link 397 + Pour une fonction de récompense $r$ donnée, $A$ permet de calculer $eta$ pour une politique $p$ en fonction de la valeur de $eta$ pour une autre politique $p'$ @trpo-advantage-eta-link 396 398 397 399 398 400 ··· 488 490 489 491 ==== Pourquoi faire le maximum sur chaque $s in S$ ? 490 492 491 - Ce maximum revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chaqune de ses actions_. 493 + Ce maximum revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chacune de ses actions_. 492 494 493 495 #comment[C'est ma théorie ça, faudrait etre sure que le papier ne donne pas d'explications] 494 496 ··· 730 732 731 733 L'algorithme de Featherstone @featherstone, servant d'implémentation alternative à Bullet @bullet-featherstone 732 734 733 - == Le _H1v2_ d'Unitree 735 + == Le robot _H1v2_ d'Unitree 734 736 735 - Le _H1v2_ est un modèle de robot humanoïde créé par la société Unitree. 737 + _H1v2_ est un modèle de robot humanoïde créé par la société Unitree. 736 738 737 739 Il possède plus de 26 degrés de liberté, dont 738 740

rapport/main.pdf

This is a binary file and will not be displayed.

+1 -1

rapport/main.typ

··· 95 95 } 96 96 97 97 #show: arkheion.with( 98 - title: [_gz-unitree_: Reinforcement learning en robotique avec validation par moteurs de physique multiples pour le H1v2 d'Unitree], 98 + title: [_gz-unitree_: Reinforcement learning en robotique avec validation par moteurs de physique multiples pour le robot H1v2 d'Unitree], 99 99 headertitle: "gz-unitree", 100 100 authors: ( 101 101 (

Configure Feed

Configure Feed