Continue rapport · gwen.works/internshiplogs@52ce121

+20

bib.yaml

··· 503 503 parent: 504 504 type: periodical 505 505 506 + kullback-leibler: 507 + type: book 508 + title: Asymptotia, Ch. 3, "Distances and affinities between measures" 509 + author: David Pollard 510 + date: 2000 511 + page-range: 6-7 512 + url: 513 + date: '2025-10-13' 514 + value: https://web.archive.org/web/20150412031925/http://www.stat.yale.edu/~pollard/Books/Asymptopia/Metrics.pdf 515 + 516 + kullback-leibler2: 517 + type: web 518 + title: Information Theory, Inference and Learning Algorithms 519 + author: David J. C. MacKay 520 + publisher: Cambridge University Press 521 + date: 2003-09-25 522 + url: 523 + date: '2025-10-13' 524 + value: 'https://books.google.fr/books?id=AKuMj4PN_EMC&lpg=PA34&pg=PA34#v=onepage&q&f=false' 525 +

+15 -3

rapport/context.typ

··· 182 182 183 183 ==== _Q-learning_ 184 184 185 - La récompense associée à un état $S_t$ et une action $A_t$, appelée $Q(S_t, A_t)$ ici pour "quality" @qlearning-etymology, est mise à jour avec cette valeur @maxq: 185 + Le score associé à un état $s_t$ et une action $a_t$, appelée $Q(s_t, a_t)$ ici pour "quality" @qlearning-etymology, est mise à jour avec cette valeur @maxq: 186 186 187 187 $ 188 - (1 - alpha) underbrace(Q(S_t, A_t), "valeur actuelle") + alpha ( underbrace(R_(t+1), "récompense\npour cette action") + gamma underbrace(max_a Q(S_(t+1), a), "récompense de la meilleure\naction pour l'état suivant") ) 188 + (1 - alpha) underbrace(Q(s_t, a_t), "valeur actuelle") + alpha ( underbrace(R_(t+1), "récompense\npour cette action") + gamma underbrace(max_a Q(S_(t+1), a), "récompense de la meilleure\naction pour l'état suivant") ) 189 189 $ 190 190 191 191 L'expression comporte deux hyperparamètres: ··· 194 194 / Discount factor $gamma$: contrôle l'importance que l'on donne aux récompenses futures. Il est utile de commencer avec une valeur faible puis l'augmenter avec le temps @maxq-discount. 195 195 196 196 197 + ==== _Trust Region Policy Optimization_ 197 198 198 - ==== _Trust Region Policy Optimization_ 199 + Théoriquement, le "score" associé à un couple état/action est souvent réduit à l'intervalle $[0, 1]$ et assimilé à une distribution de probabilité: $Q$ est une fonction de $S times A$ vers $[0, 1]$ qui renvoie la probabilité qu'a l'agent à choisir une action en étant dans un état de l'environnement. 200 + 201 + La mise à jour de la politique de l'agent revient donc à rapprocher $Q$ de la meilleure politique possible, $Q*$, qui est bien sûr inconnue. 199 202 203 + Pour mesurer à quel point l'entraînement progresse, on mesure donc une _distance_ entre ces deux distributions de probabilité. 204 + 205 + Il existe plusieurs manières de mesurer l'écart entre deux distributions de probabilité, dont notamment la _divergence de Kullback-Leibler_, aussi appelée entropie relative @kullback-leibler @kullback-leibler2: 206 + 207 + $ 208 + D_"KL" (P || Q) := sum_(x in cal(X)) P(x) log P(x) / Q(x) 209 + $ 210 + 211 + Avec $cal(X)$ l'espace des échantillons dont $P$ et $Q$ mesurent la probabilité: dans notre cas, $cal(X) = S times A$. 200 212 201 213 202 214

rapport/main.pdf

This is a binary file and will not be displayed.

Configure Feed

Configure Feed