Continue rapport · gwen.works/internshiplogs@f1da67f

+43 -1

2 changed files

expand all

rapport

context.typ

main.pdf

+43 -1

rapport/context.typ

··· 2 2 #import "@preview/fletcher:0.5.8": diagram, node, edge 3 3 4 4 5 - 6 5 == Bases théoriques du _Reinforcement Learning_ 7 6 8 7 L'apprentissage par renforcement, ou _Reinforcement Learning_, permet de développer des programmes sans expliciter leur logique: on décrit plutôt quatre choses, qui vont permettre à la logique d'émerger pendant la phase d'entraînement: ··· 219 218 220 219 $ 221 220 max_(s in S) D_"KL" (Q'(s, dot) || Q(s, dot)) < delta 221 + $ 222 + 223 + Ce qui revient à limiter non pas la simple distance entre les deux politiques, mais _limiter la modification de la politique sur chaqune de ses actions_. 224 + 225 + Ceci permet d'éviter d'avoir deux politiques jugées similaires par $D_"KL"$ à cause d'une "compensation" de la modification de la probabilité pour un $Q(s, a_2)$ par une autre modification pour $Q(s, a_1)$: 226 + 227 + 228 + Imaginons: 229 + 230 + #let si = $& quad "si"$ 231 + #let sinon = $& quad "sinon"$ 232 + 233 + 234 + $ 235 + Q' := (s, a) |-> cases( 236 + Q(s, a) dot 2 si a = 1 \ 237 + Q(s, a) dot 1/2 si a = 2 \ 238 + Q(s, a) sinon 239 + ) \ 240 + 241 + forall s in S, Q(s, 1) = Q(s, 2) 242 + $ 243 + 244 + On a dans ce cas 245 + 246 + #let kl = (a, b) => $#a log #a / #b$ 247 + 248 + #let crossout = (content, why) => $undershell(cancel(#content), "car " #why)$ 249 + 250 + $ 251 + D_"KL" ( Q || Q' ) 252 + &= sum_((s, a) in S times A) kl(Q(s, a), Q'(s, a)) \ 253 + &= sum_(s in S) 254 + crossout( 255 + sum_(a in A - {1, 2}) [ kl(Q(s, a), Q'(s, a)) ], 256 + Q(s, a) = Q'(s, a) " pour " a in.not {1, 2} 257 + ) 258 + + kl(Q(s, 1), 2Q(s, 1)) + kl(Q(s, 2), 1/2 Q(s, 2)) \ 259 + &= sum_(s in S) 260 + Q(s, 1) lr([ log Q(s, 1) - log Q(s, 1) - log 2 ], size: #200%) + 261 + Q(s, 2) [ log Q(s, 2) - log Q(s, 2) - log 1/2 ] \ 262 + &= sum_(s in S) 263 + - Q(s, 1) log 2 + Q(s, 2) log 2 222 264 $ 223 265 224 266 Avec $delta$ une limite supérieure de distance entre $Q'$, la nouvelle politique, et $Q$, l'ancienne.

rapport/main.pdf

This is a binary file and will not be displayed.

Configure Feed

Configure Feed