···503503 parent:
504504 type: periodical
505505506506+kullback-leibler:
507507+ type: book
508508+ title: Asymptotia, Ch. 3, "Distances and affinities between measures"
509509+ author: David Pollard
510510+ date: 2000
511511+ page-range: 6-7
512512+ url:
513513+ date: '2025-10-13'
514514+ value: https://web.archive.org/web/20150412031925/http://www.stat.yale.edu/~pollard/Books/Asymptopia/Metrics.pdf
515515+516516+kullback-leibler2:
517517+ type: web
518518+ title: Information Theory, Inference and Learning Algorithms
519519+ author: David J. C. MacKay
520520+ publisher: Cambridge University Press
521521+ date: 2003-09-25
522522+ url:
523523+ date: '2025-10-13'
524524+ value: 'https://books.google.fr/books?id=AKuMj4PN_EMC&lpg=PA34&pg=PA34#v=onepage&q&f=false'
525525+
+15-3
rapport/context.typ
···182182183183==== _Q-learning_
184184185185-La récompense associée à un état $S_t$ et une action $A_t$, appelée $Q(S_t, A_t)$ ici pour "quality" @qlearning-etymology, est mise à jour avec cette valeur @maxq:
185185+Le score associé à un état $s_t$ et une action $a_t$, appelée $Q(s_t, a_t)$ ici pour "quality" @qlearning-etymology, est mise à jour avec cette valeur @maxq:
186186187187$
188188-(1 - alpha) underbrace(Q(S_t, A_t), "valeur actuelle") + alpha ( underbrace(R_(t+1), "récompense\npour cette action") + gamma underbrace(max_a Q(S_(t+1), a), "récompense de la meilleure\naction pour l'état suivant") )
188188+(1 - alpha) underbrace(Q(s_t, a_t), "valeur actuelle") + alpha ( underbrace(R_(t+1), "récompense\npour cette action") + gamma underbrace(max_a Q(S_(t+1), a), "récompense de la meilleure\naction pour l'état suivant") )
189189$
190190191191L'expression comporte deux hyperparamètres:
···194194/ Discount factor $gamma$: contrôle l'importance que l'on donne aux récompenses futures. Il est utile de commencer avec une valeur faible puis l'augmenter avec le temps @maxq-discount.
195195196196197197+==== _Trust Region Policy Optimization_
197198198198-==== _Trust Region Policy Optimization_
199199+Théoriquement, le "score" associé à un couple état/action est souvent réduit à l'intervalle $[0, 1]$ et assimilé à une distribution de probabilité: $Q$ est une fonction de $S times A$ vers $[0, 1]$ qui renvoie la probabilité qu'a l'agent à choisir une action en étant dans un état de l'environnement.
200200+201201+La mise à jour de la politique de l'agent revient donc à rapprocher $Q$ de la meilleure politique possible, $Q*$, qui est bien sûr inconnue.
199202203203+Pour mesurer à quel point l'entraînement progresse, on mesure donc une _distance_ entre ces deux distributions de probabilité.
204204+205205+Il existe plusieurs manières de mesurer l'écart entre deux distributions de probabilité, dont notamment la _divergence de Kullback-Leibler_, aussi appelée entropie relative @kullback-leibler @kullback-leibler2:
206206+207207+$
208208+D_"KL" (P || Q) := sum_(x in cal(X)) P(x) log P(x) / Q(x)
209209+$
210210+211211+Avec $cal(X)$ l'espace des échantillons dont $P$ et $Q$ mesurent la probabilité: dans notre cas, $cal(X) = S times A$.
200212201213202214