Continue rapport · gwen.works/internshiplogs@47e203d

+8 -6

rapport/context.typ

··· 222 222 223 223 Ce qui revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chaqune de ses actions_. 224 224 225 - Ceci permet d'éviter d'avoir deux politiques jugées similaires par $D_"KL"$ à cause d'une "compensation" de la modification de la probabilité pour un $Q(s, a_2)$ par une autre modification pour $Q(s, a_1)$: 226 - 227 - 228 - Imaginons: 225 + Ceci permet d'éviter d'avoir deux politiques jugées similaires par $D_"KL"$ à cause de modifications se "compensant". Par exemple, avec 229 226 230 227 #let si = $& quad "si"$ 231 228 #let sinon = $& quad "sinon"$ 232 229 233 230 234 231 $ 232 + forall s in S, Q(s, 1) = Q(s, 2) 233 + $ 234 + 235 + et 236 + 237 + $ 235 238 Q' := (s, a) |-> cases( 236 239 Q(s, a) dot 2 si a = 1 \ 237 240 Q(s, a) dot 1/2 si a = 2 \ 238 241 Q(s, a) sinon 239 242 ) \ 240 243 241 - forall s in S, Q(s, 1) = Q(s, 2) 242 244 $ 243 245 244 - Dans ce cas, on a $D_"KL" (Q, Q') = 0$ (cf @dkl-zero), alors qu'il y a eu une modification très importante des probabilités de choix de l'action 1 et 2 dans tout les états possibles, là ou $Q$ les considérait comme identiques. 246 + On a $D_"KL" (Q, Q') = 0$ (cf @dkl-zero), alors qu'il y a eu une modification très importante des probabilités de choix de l'action 1 et 2 dans tout les états possibles : si on imagine que $Q(s, 1) = Q(s, 2) = 1 slash 4$, on a après modification $Q'(s, 1) = 1 slash 2$ et $Q'(s, 2) = 1 slash 8$. 245 247 246 248 247 249 Avec $delta$ une limite supérieure de distance entre $Q'$, la nouvelle politique, et $Q$, l'ancienne.

rapport/main.pdf

This is a binary file and will not be displayed.

+21 -5

rapport/main.typ

··· 64 64 65 65 #show link: underline 66 66 67 + #show ref: it => { 68 + let eq = math.equation 69 + let el = it.element 70 + if el != none and el.func() == eq { 71 + // Override equation references. 72 + numbering( 73 + el.numbering, 74 + ..counter(eq).at(el.location()) 75 + ) 76 + } else if el != none and counter("appendices").at(el.location()).at(0) != 0 { 77 + let letter = el.numbering(counter("appendices").at(el.location()).at(0)) 78 + let heading_path = numbering(heading().numbering, counter(heading)).at(el.location()) 79 + [Annexe #path] 80 + } else { 81 + it 82 + } 83 + } 84 + 67 85 #show: arkheion.with( 68 86 title: [_gz-unitree_: Reinforcement learning en robotique avec validation par moteurs de physique multiples pour le H1v2 d'Unitree], 69 87 headertitle: "gz-unitree", ··· 92 110 93 111 #pagebreak() 94 112 95 - = Remerciements 113 + = Remerciements 96 114 97 115 #outline() 98 116 ··· 100 118 101 119 #include "context.typ" 102 120 103 - = Packaging reproductible avec Nix 121 + = Packaging reproductible avec Nix 122 + 104 123 105 124 #include "nix.typ" 106 125 ··· 120 139 = Preuves 121 140 122 141 #include "proofs.typ" 123 - 124 - #heading(numbering: none)[Annexes] 125 -

-14

rapport/proofs.typ

··· 1 - #show ref: it => { 2 - let eq = math.equation 3 - let el = it.element 4 - if el != none and el.func() == eq { 5 - // Override equation references. 6 - link(el.location(),numbering( 7 - el.numbering, 8 - ..counter(eq).at(el.location()) 9 - )) 10 - } else { 11 - // Other references as usual. 12 - it 13 - } 14 - } 15 1 16 2 == Cas dégénéré de $D_"KL" (Q, Q') = 0$ sans utilisation de $max$ <dkl-zero> 17 3

Configure Feed

Configure Feed