Continue rapport · gwen.works/internshiplogs@abe3441

+13 -3

2 changed files

expand all

rapport

context.typ

main.pdf

+13 -3

rapport/context.typ

··· 1 1 #import "@preview/fletcher:0.5.8": diagram, node, edge 2 2 3 + #set terms(indent: 10pt) 4 + 3 5 == Bases théoriques du _Reinforcement Learning_ 4 6 5 7 L'apprentissage par renforcement, ou _Reinforcement Learning_, permet de développer des programmes sans expliciter leur logique: on décrit plutôt quatre choses, qui vont permettre à la logique d'émerger pendant la phase d'entraînement: ··· 56 58 57 59 #exhaustive_memory_table(filled: false)[ Exemple d'agent à mémoire exhaustive pour un "C'est plus ou c'est moins" dans ${ 0, 1, 2 }$, avec pour solution 2 ] 58 60 59 - L'entraînement consiste donc ici en l'exploration de l'entièreté des états possibles de l'environnement, et, pour chaque état, le calcul du coût associé à chaque action possible. On remplit la colonne "Action à effectuer" avec l'action associée au coût le plus bas. 61 + L'entraînement consiste donc ici en l'exploration de l'entièreté des états possibles de l'environnement, et, pour chaque état, le calcul du coût associé à chaque action possible. 60 62 61 63 Il faut définir la fonction de coût, souvent appelée $L$ pour _loss_: 62 64 ··· 66 68 67 69 avec $E$ l'ensemble des états possibles de l'environnement, et $S$ un ensemble muni d'un ordre total (on utilise souvent $[0, 1]$) 68 70 69 - Quand on parle de "coût d'une action", on parle du coût de l'état résultant de l'application de l'action en question à l'état actuel 71 + Quand on parle de "coût d'une action", on parle du coût de l'état résultant de l'application de l'action en question à l'état actuel//: $ L: E times A -> S = (e, a) |-> L(a(e))$ 72 + 73 + On remplit la colonne "Action à effectuer" avec l'action au coût le plus bas: 70 74 71 75 #exhaustive_memory_table(filled: true)[ Entraînement terminé, avec pour fonction coût $L$ la distance à la solution ] 72 76 ··· 79 83 80 84 ==== Deep Reinforcement Learning 81 85 82 - Une façon de remédier à ce problème de dimensions est de remplacer le tableau exhaustif par un réseau de neurones. 86 + Une façon de remédier à ce problème de dimensions est de remplacer le tableau exhaustif par un réseau de neurones: 87 + 88 + / État actuel: devient la couche d'entrée 89 + / Meilleure action: devient la couche de sortie 90 + / Coûts associés: deviennent les neurones des couches cachées 91 + / Le remplissage du tableau: devient la rétropropagation pendant l'entraînement 92 + 83 93 84 94 85 95 === Tendances à la "tricherie" des agents

rapport/main.pdf

This is a binary file and will not be displayed.

Configure Feed

Configure Feed