Continue rapport · gwen.works/internshiplogs@7724cd9

+13 -2

bib.yaml

··· 369 369 370 370 isaacsim: 371 371 type: web 372 - title: Isaac Sim - Robotics Simulation and Synthetic Data Generation | NVIDIA Developer 372 + title: Isaac Sim - Robotics Simulation and Synthetic Data Generation 373 + author: NVIDIA Developer 373 374 url: 374 375 date: '2025-10-10' 375 376 value: https://developer.nvidia.com/isaac/sim ··· 377 378 378 379 physx: 379 380 type: web 380 - title: PhysX SDK - Latest Features & Libraries | NVIDIA Developer 381 + title: PhysX SDK - Latest Features & Libraries 382 + author: NVIDIA Developer 381 383 url: 382 384 date: '2025-10-10' 383 385 value: https://developer.nvidia.com/physx-sdk ··· 426 428 serial-number: 427 429 arxiv: '1707.06347' 428 430 431 + qlearning: 432 + type: book 433 + title: Reinforcement Learning for Sequential Decision and Optimal Control 434 + author: Shengbo Eben Li 435 + page-range: 1-460 436 + publisher: Springer Singapore 437 + serial-number: 438 + doi: 10.1007/978-981-19-7784-8 439 +

+5 -9

rapport/context.typ

··· 2 2 3 3 4 4 #let comment = content => text(fill: gray)[(Note: #content)] 5 + #let todo = content => text(fill: red)[(TODO: #content)] 5 6 #let refneeded = text(fill: luma(100), [[Réf. nécéssaire]]) 6 7 7 - #show terms: it => grid( 8 - columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left), 9 - ..it.children.map(item => 10 - (strong(item.term), item.description) 11 - ).flatten() 12 - ) 13 - 14 8 == Bases théoriques du _Reinforcement Learning_ 15 9 16 10 L'apprentissage par renforcement, ou _Reinforcement Learning_, permet de développer des programmes sans expliciter leur logique: on décrit plutôt quatre choses, qui vont permettre à la logique d'émerger pendant la phase d'entraînement: ··· 18 12 - Un _agent_: c'est le programme que l'on souhaite créer 19 13 - Des _actions_ que l'agent peut choisir d'effectuer ou pas 20 14 - Un _environnement_, que les actions viennent modifier 21 - - Un _score_ (_coût_ s'il doit être minimisé, _récompense_ inversement) qui dépend de l'état pré- et post-action de l'environnement ainsi que de l'action qui a été effectuée #footnote[Le Q-learning consiste en la définition d'une fonction coût qui ne dépend que de l'état actuel de l'environnement] 15 + - Un _score_ (_coût_ s'il doit être minimisé, _récompense_ inversement) qui dépend de l'état pré- et post-action de l'environnement ainsi que de l'action qui a été effectuée 22 16 23 17 La phase d'apprentissage consiste à trouver, par des cycles d'essai/erreur, quelles sont les meilleures actions à prendre en fonction de l'environnement actuel, avec meilleur définit comme "qui minimise le coût" (ou maximise la récompense): 24 18 ··· 41 35 / Coût: un ensemble de contraintes ("ne pas endommager le robot"), dont la plupart dépendent de l'objectif de la politique 42 36 43 37 === L'entraînement 38 + 39 + #todo[Expliquer exploration vs exploitation et $gamma$] 44 40 45 41 Une fois que ce cadre est posé, il reste à savoir _comment_ l'on va trouver la fonction qui associe un état de l'environnement à une action. 46 42 ··· 75 71 L: E -> S 76 72 $ 77 73 78 - avec $E$ l'ensemble des états possibles de l'environnement, et $S$ un ensemble muni d'un ordre total (on utilise souvent $[0, 1]$) 74 + avec $E$ l'ensemble des états possibles de l'environnement, et $S$ un ensemble muni d'un ordre total (on utilise souvent $[0, 1]$). Ces fonctions coût, qui ne dépendent que de l'état actuel de l'environnement, représente un domaine du RL#footnote[Reinforcement Learning] appelé _Q-Learning_ @qlearning 79 75 80 76 On remplit la colonne "Action à effectuer" avec l'action au coût le plus bas: 81 77

rapport/main.pdf

This is a binary file and will not be displayed.

+7

rapport/main.typ

··· 7 7 it.text.replace("graph TD", "digraph {").replace("-->", "->") + "}", 8 8 ) 9 9 10 + #show terms: it => grid( 11 + columns: 2, row-gutter: 1em, column-gutter: (15pt, 0pt), align: (left, left), 12 + ..it.children.map(item => 13 + (strong(item.term), item.description) 14 + ).flatten() 15 + ) 16 + 10 17 11 18 #let imagefigure(path, caption, size: 100%) = figure( 12 19 image(path, width: size),

Configure Feed

Configure Feed