Continue rapport · gwen.works/internshiplogs@21bcda0

+14

bib.yaml

··· 412 412 issue: 22 413 413 volume: 3 414 414 415 + proximalpolicy: 416 + type: misc 417 + title: Proximal Policy Optimization Algorithms 418 + author: 419 + - Schulman, John 420 + - Wolski, Filip 421 + - Dhariwal, Prafulla 422 + - Radford, Alec 423 + - Klimov, Oleg 424 + date: 2017 425 + url: https://arxiv.org/abs/1707.06347 426 + serial-number: 427 + arxiv: '1707.06347' 428 +

+8 -4

rapport/context.typ

··· 18 18 - Un _agent_: c'est le programme que l'on souhaite créer 19 19 - Des _actions_ que l'agent peut choisir d'effectuer ou pas 20 20 - Un _environnement_, que les actions viennent modifier 21 - - Un _coût_ (ou _récompense_) qui dépend de l'environnement 21 + - Un _score_ (_coût_ s'il doit être minimisé, _récompense_ inversement) qui dépend de l'état pré- et post-action de l'environnement ainsi que de l'action qui a été effectuée #footnote[Le Q-learning consiste en la définition d'une fonction coût qui ne dépend que de l'état actuel de l'environnement] 22 22 23 23 La phase d'apprentissage consiste à trouver, par des cycles d'essai/erreur, quelles sont les meilleures actions à prendre en fonction de l'environnement actuel, avec meilleur définit comme "qui minimise le coût" (ou maximise la récompense): 24 24 ··· 27 27 edge((0, 0), (1, 0), "->")[Action], 28 28 node((1, 0))[Environnement], 29 29 edge((1, 0), (2, 0), "-->")[Fonction coût], 30 - node((2, 0))[Coût], 30 + node((2, 0))[Score], 31 31 edge((2, 0), (0, 0), "->", bend: 45deg)[Mise à jour] 32 32 )) 33 33 ··· 76 76 $ 77 77 78 78 avec $E$ l'ensemble des états possibles de l'environnement, et $S$ un ensemble muni d'un ordre total (on utilise souvent $[0, 1]$) 79 - 80 - Quand on parle de "coût d'une action", on parle du coût de l'état résultant de l'application de l'action en question à l'état actuel//: $ L: E times A -> S = (e, a) |-> L(a(e))$ 81 79 82 80 On remplit la colonne "Action à effectuer" avec l'action au coût le plus bas: 83 81 ··· 183 181 ==== Bullet avec Featherstone 184 182 185 183 L'algorithme de Featherstone @featherstone, servant d'implémentation alternative à Bullet @bullet-featherstone 184 + 185 + === Fonctions coût en robotique 186 + 187 + ==== _Proximal Policy Optimization_ 188 + 189 + 186 190 187 191 188 192 == Le H1v2 d'_Unitree_

rapport/main.pdf

This is a binary file and will not be displayed.

Configure Feed

Configure Feed