Continue rapport · gwen.works/internshiplogs@8ab007f

+2 -20

rapport/context.typ

··· 241 241 forall s in S, Q(s, 1) = Q(s, 2) 242 242 $ 243 243 244 - On a dans ce cas 245 - 246 - #let kl = (a, b) => $#a log #a / #b$ 244 + Dans ce cas, on a $D_"KL" (Q, Q') = 0$ (cf @dkl-zero), alors qu'il y a eu une modification très importante des probabilités de choix de l'action 1 et 2 dans tout les états possibles, là ou $Q$ les considérait comme identiques. 247 245 248 - #let crossout = (content, why) => $undershell(cancel(#content), "car " #why)$ 249 - 250 - $ 251 - D_"KL" ( Q || Q' ) 252 - &= sum_((s, a) in S times A) kl(Q(s, a), Q'(s, a)) \ 253 - &= sum_(s in S) 254 - crossout( 255 - sum_(a in A - {1, 2}) [ kl(Q(s, a), Q'(s, a)) ], 256 - Q(s, a) = Q'(s, a) " pour " a in.not {1, 2} 257 - ) 258 - + kl(Q(s, 1), 2Q(s, 1)) + kl(Q(s, 2), 1/2 Q(s, 2)) \ 259 - &= sum_(s in S) 260 - Q(s, 1) lr([ log Q(s, 1) - log Q(s, 1) - log 2 ], size: #200%) + 261 - Q(s, 2) [ log Q(s, 2) - log Q(s, 2) - log 1/2 ] \ 262 - &= sum_(s in S) 263 - - Q(s, 1) log 2 + Q(s, 2) log 2 264 - $ 265 246 266 247 Avec $delta$ une limite supérieure de distance entre $Q'$, la nouvelle politique, et $Q$, l'ancienne. 267 248 ··· 280 261 == Le H1v2 d'_Unitree_ 281 262 282 263 == Reproductibilité logicielle 264 +

rapport/main.pdf

This is a binary file and will not be displayed.

+4

rapport/main.typ

··· 117 117 118 118 #show: arkheion-appendices 119 119 120 + = Preuves 121 + 122 + #include "proofs.typ" 123 + 120 124 #heading(numbering: none)[Annexes] 121 125

+52

rapport/proofs.typ

··· 1 + #show ref: it => { 2 + let eq = math.equation 3 + let el = it.element 4 + if el != none and el.func() == eq { 5 + // Override equation references. 6 + link(el.location(),numbering( 7 + el.numbering, 8 + ..counter(eq).at(el.location()) 9 + )) 10 + } else { 11 + // Other references as usual. 12 + it 13 + } 14 + } 15 + 16 + == Cas dégénéré de $D_"KL" (Q, Q') = 0$ sans utilisation de $max$ <dkl-zero> 17 + 18 + Soit $S$ (resp. $A subset bb(N)$) l'espace des états (resp. actions) de l'environnement. Soit $Q : S times A -> [0, 1]$ une distribution de probabilité du choix par l'agent d'une action dans un état tel que 19 + 20 + $ forall s in S, Q(s, 1) = Q(s, 2) $ <dkl-zero-qeq> 21 + 22 + Soit $Q' : S times A -> [0, 1]$ définit ainsi: 23 + 24 + $ forall s in S, Q'(s, 1) = 2 Q(s, 1) $ <dkl-zero-a1> 25 + $ forall s in S, Q'(s, 2) = 1/2 Q(s, 2) $ <dkl-zero-a2> 26 + $ forall s in S, forall a in A - {1, 2}, Q'(s, a) = Q(s, a) $ <dkl-zero-else> 27 + 28 + #let kl = (a, b) => $#a log #a / #b$ 29 + 30 + #let crossout = (content, why) => $underbracket(cancel(#content), "d'après " #why)$ 31 + 32 + On a 33 + 34 + $ 35 + 36 + D_"KL" ( Q || Q' ) 37 + &= sum_((s, a) in S times A) kl(Q(s, a), Q'(s, a)) \ 38 + &"On découpe la somme selon les valeurs de " A ":" \ 39 + &= sum_(s in S) 40 + crossout( 41 + sum_(a in A - {1, 2}) kl(Q(s, a), Q(s, a)) , 42 + #[@dkl-zero-else] 43 + ) 44 + + kl(Q(s, 1), 2Q(s, 1)) + kl(Q(s, 2), 1/2 Q(s, 2)) \ 45 + &= sum_(s in S) 46 + Q(s, 1) lr([ log Q(s, 1) - log Q(s, 1) - log 2 ], size: #200%) + 47 + Q(s, 2) [ log Q(s, 2) - log Q(s, 2) - log 1/2 ] \ 48 + &= sum_(s in S) - Q(s, 1) log 2 + Q(s, 2) log 2 wide "d'après" #[@dkl-zero-a1 et @dkl-zero-a2] \ 49 + &= sum_(s in S) log 2 thin (cancel(Q(s, 2) - Q(s, 1))) wide wide thin "d'après" #[@dkl-zero-qeq] \ 50 + &= sum_(s in S) 0 = 0 51 + 52 + $

Configure Feed

Configure Feed