···241241forall s in S, Q(s, 1) = Q(s, 2)
242242$
243243244244-On a dans ce cas
245245-246246-#let kl = (a, b) => $#a log #a / #b$
244244+Dans ce cas, on a $D_"KL" (Q, Q') = 0$ (cf @dkl-zero), alors qu'il y a eu une modification très importante des probabilités de choix de l'action 1 et 2 dans tout les états possibles, là ou $Q$ les considérait comme identiques.
247245248248-#let crossout = (content, why) => $undershell(cancel(#content), "car " #why)$
249249-250250-$
251251-D_"KL" ( Q || Q' )
252252-&= sum_((s, a) in S times A) kl(Q(s, a), Q'(s, a)) \
253253-&= sum_(s in S)
254254-crossout(
255255- sum_(a in A - {1, 2}) [ kl(Q(s, a), Q'(s, a)) ],
256256- Q(s, a) = Q'(s, a) " pour " a in.not {1, 2}
257257-)
258258-+ kl(Q(s, 1), 2Q(s, 1)) + kl(Q(s, 2), 1/2 Q(s, 2)) \
259259-&= sum_(s in S)
260260-Q(s, 1) lr([ log Q(s, 1) - log Q(s, 1) - log 2 ], size: #200%) +
261261-Q(s, 2) [ log Q(s, 2) - log Q(s, 2) - log 1/2 ] \
262262-&= sum_(s in S)
263263-- Q(s, 1) log 2 + Q(s, 2) log 2
264264-$
265246266247Avec $delta$ une limite supérieure de distance entre $Q'$, la nouvelle politique, et $Q$, l'ancienne.
267248···280261== Le H1v2 d'_Unitree_
281262282263== Reproductibilité logicielle
264264+