···547547 date: '2025-10-16'
548548 value: https://spinningup.openai.com/en/latest/algorithms/ppo.html
549549550550+rl-reproducibility:
551551+ type: article
552552+ title: Deep Reinforcement Learning that Matters
553553+ author:
554554+ - Henderson, Peter
555555+ - Islam, Riashat
556556+ - Bachman, Philip
557557+ - Pineau, Joelle
558558+ - Precup, Doina
559559+ - Meger, David
560560+ date: 2017-09
561561+ url:
562562+ value: http://arxiv.org/abs/1709.06560v3
563563+ date: '2025-10-16'
564564+ serial-number:
565565+ arxiv: 1709.06560v3
566566+ abstract: In recent years, significant progress has been made in solving challenging
567567+ problems across various domains using deep reinforcement learning (RL). Reproducing
568568+ existing work and accurately judging the improvements offered by novel methods
569569+ is vital to sustaining this progress. Unfortunately, reproducing results for state-of-the-art
570570+ deep RL methods is seldom straightforward. In particular, non-determinism in standard
571571+ benchmark environments, combined with variance intrinsic to the methods, can make
572572+ reported results tough to interpret. Without significance metrics and tighter
573573+ standardization of experimental reporting, it is difficult to determine whether
574574+ improvements over the prior state-of-the-art are meaningful. In this paper, we
575575+ investigate challenges posed by reproducibility, proper experimental techniques,
576576+ and reporting procedures. We illustrate the variability in reported metrics and
577577+ results when comparing against common baselines and suggest guidelines to make
578578+ future results in deep RL more reproducible. We aim to spur discussion about how
579579+ to ensure continued progress in the field by minimizing wasted effort stemming
580580+ from results that are non-reproducible and easily misinterpreted.
581581+ parent:
582582+ type: periodical
583583+
+40-5
rapport/context.typ
···572572573573#section[Par _clipping_ _(PPO-Clip)_]
574574575575-_PPO-Clip_ évite le calcul d'une distance K-L#footnote[Kullback-Leibler] et enlève la contraînte sur le problème d'optimisation.
575575+_PPO-Clip_ enlève la contraînte sur le problème d'optimisation.
576576577577-On préfère changer la mise à jour de la politique, pour limiter directement dans son expression l'ampleur de la modification à $Q_cal(P) (s_(t+1), a_(t+1)^*)$ (cf @policy-update-loop)
577577+On préfère changer l'objectif la quantité à optimiser, pour limiter intrinsèquement l'ampleur des modifications, en résolvant le problème d'optimisation suivant @ppo-openai
578578+579579+$
580580+argmax_(cal(P)') & exp_((s, a) in cal(S)) overbracket(min(
581581+ (Q_cal(P)' (s, a)) / (Q_cal(P) (s, a)) A_(cal(P)', R)(s, a), quad
582582+ op("clip")(
583583+ (Q_cal(P)' (s, a)) / (Q_cal(P) (s, a)),
584584+ 1 - epsilon,
585585+ 1 + epsilon
586586+ ) A_(cal(P)', R)(s, a)
587587+), L(s, a, cal(P), cal(P'), R)) \
588588+"s.c." & top
589589+$
578590579579-On utilise cette mise à jour @ppo-openai
591591+Avec $epsilon in RR_+^*$ est un paramètre indiquant à quel point l'on peut s'écarter de la politique précédente, et
580592581593$
582582-Q_cal(P) (s_(t+1), a_(t+1)) <- min(
594594+op("clip") := (x, m, M) |-> cases(
595595+ m si x < m,
596596+ M si x > M,
597597+ x sinon
598598+)
599599+$
583600601601+La complexité de l'expression, et la présence d'un $min$ au lieu de simplement un $op("clip")$ est dûe au fait que l'avantage $A_(cal(P)', R) (s, a)$ peut être négatif:
602602+603603+/ Si l'avantage est positif:
604604+#diagram(
605605+ edge((-5, 0), "->", (5, 0)),
606606+ edge((-5, 0.25), "-", (-5, -0.25), label-side: left)[$0$]
584607)
585608$
586586-609609+L(s, a, cal(P), cal(P)', R) = min(
610610+ (Q_cal(P)' (s, a)) / (Q_cal(P) (s, a)),
611611+ quad 1 + epsilon
612612+ ) A_(cal(P)', R)(s, a)
613613+$
614614+/ Si l'avantage est négatif: $
615615+L(s, a, cal(P), cal(P)', R) = max(
616616+ 1 - epsilon, quad
617617+ (Q_cal(P)' (s, a)) / (Q_cal(P) (s, a))
618618+ ) A_(cal(P)', R)(s, a)
619619+$
587620588621== Le H1v2 d'_Unitree_
589622590623== Reproductibilité logicielle
591624625625+La reproductibilité est particulièrement complexe dans le champ du reinforcement learning @rl-reproducibility
626626+