Continue rapport · gwen.works/internshiplogs@2189ea1

+45 -26

2 changed files

expand all

rapport

context.typ

proofs.typ

+38 -25

rapport/context.typ

··· 245 245 $M$ et $cal(P)$ forment en fait tout se qui se passe pendant un pas de temps, c'est cette boucle que l'on répète pour soit entraîner l'agent (si l'on met $cal(P)$ à jour à chaque tour de boucle) ou l'utiliser: 246 246 247 247 #diagram( 248 - node((0, 0))[$s_t$], 248 + node((0, 0), $s_t$), 249 249 edge(corner: right, label-pos: 2/8, label-side: left)[choix de l'action], 250 250 edge("->", corner: right, label-pos: 3/8, label-side: left)[$cal(P)$], 251 251 node((1, -1))[$a_t$], ··· 598 598 ) 599 599 $ 600 600 601 - La complexité de l'expression, et la présence d'un $min$ au lieu de simplement un $op("clip")$ est dûe au fait que l'avantage $A_(cal(P)', R) (s, a)$ peut être négatif: 601 + La complexité de l'expression, et la présence d'un $min$ au lieu de simplement un $op("clip")$ est dûe au fait que l'avantage $A_(cal(P)', R) (s, a)$ peut être négatif. L'expression se simplifie en séparant les cas (cf @proof-ppo-clip-simplify) 602 602 603 603 #let named_point = (x, y, shape: "@", color: black, side: right, content) => edge((x, y), shape + "-", (x+0.01, y), label-side: side, stroke: color, text(fill: color, content)) 604 604 605 - / Si l'avantage est positif: #fletcher.diagram( 606 - spacing: (2.7em, 2em), 607 - node((-5, 0))[$0$], 608 - edge((-5, 0), "|->", (5, 0), stroke: luma(150)), 609 - edge((-1, 0), "|-|", (1, 0), extrude: (1, -1, 0) ), 610 - named_point(-1, 0, shape: "|")[$1-epsilon$], 611 - named_point(1, 0, shape: "|")[$1+epsilon$], 612 - named_point(0, 0)[$cal(P)$], 613 - named_point(-4, 0, color: red, side: left)[$cal(P)'$], 614 - named_point(0.5, 0, color: green, side: left)[$cal(P)'$], 615 - ) 616 - $ 605 + / Si l'avantage est positif: $a$ est un meilleur choix que $cal(P)(s)$. 606 + 607 + #stack(dir: ltr, 608 + 609 + block(width: 70%, math.equation(numbering: none, block: true, $ 617 610 L(s, a, cal(P), cal(P)', R) = min( 618 611 (Q_cal(P)' (s, a)) / (Q_cal(P) (s, a)), 619 612 quad 1 + epsilon 620 613 ) A_(cal(P)', R)(s, a) 621 - $ 622 - / Si l'avantage est négatif: #fletcher.diagram( 614 + $)), 615 + 616 + diagram( 623 617 spacing: (2.7em, 2em), 624 - node((5, 0))[$0$], 625 - edge((-5, 0), "<-|", (5, 0), stroke: luma(150)), 626 - edge((-2, 0), "|-|", (2, 0), extrude: (1, -1, 0) ), 627 - named_point(-2, 0, shape: "|")[$1-epsilon$], 628 - named_point(2, 0, shape: "|")[$1+epsilon$], 618 + node((-1, 0))[$cal(P)'$], 619 + edge((-1, 0), "->", (3, 0), stroke: luma(150)), 620 + edge((-1, 0), "-|", (1, 0), extrude: (1, -1, 0) ), 621 + named_point(1, 0, shape: "|")[$1+epsilon$], 629 622 named_point(0, 0)[$cal(P)$], 630 - named_point(-4, 0, color: red, side: left)[$cal(P)'$], 631 - named_point(1, 0, color: green, side: left)[$cal(P)'$], 623 + named_point(1.5, 0, color: red, side: left)[$times$], 624 + named_point(0.5, 0, color: olive, side: left)[$checkmark$], 625 + ), 626 + 632 627 ) 633 - $ 628 + 629 + / Si l'avantage est négatif: choisir $a$ est pire que garder $cal(P)(s)$. 630 + 631 + #stack(dir: ltr, 632 + 633 + block(width: 70%, math.equation(numbering: none, block:true, $ 634 634 L(s, a, cal(P), cal(P)', R) = max( 635 635 1 - epsilon, quad 636 636 (Q_cal(P)' (s, a)) / (Q_cal(P) (s, a)) 637 637 ) A_(cal(P)', R)(s, a) 638 - $ 638 + $)), 639 + 640 + diagram( 641 + spacing: (2.7em, 2em), 642 + node((3, 0))[$cal(P)'$], 643 + edge((-1, 0), "<-", (3, 0), stroke: luma(150)), 644 + edge((1, 0), "|-", (3, 0), extrude: (1, -1, 0) ), 645 + named_point(1, 0, shape: "|")[$1-epsilon$], 646 + named_point(2, 0)[$cal(P)$], 647 + named_point(0, 0, color: red, side: left)[$times$], 648 + named_point(1.5, 0, color: olive, side: left)[$checkmark$], 649 + ), 650 + 651 + ) 639 652 640 653 == Le H1v2 d'_Unitree_ 641 654

+7 -1

rapport/proofs.typ

··· 103 103 $ 104 104 P(C = (c_t)_(t in NN)) 105 105 &= rho_0(s_0) Q_p (s_0, a_0) product_(t=1)^oo Q_p (s_t, a_t) \ 106 - &= rho_0(s_0) product_(t=0)^oo Q_p (s_t, a_t) \ 106 + &= rho_0(s_0) product_(t=0)^oo Q_p (s_t, a_t) 107 107 $ 108 108 109 109 Et ainsi ··· 114 114 &= sum_((c_t)_(t in NN) in cal(S)) (sum_(t=0)^oo gamma^t r(c_t)) rho_0(s_0) product_(t=0)^oo Q_p (s_t, a_t) \ 115 115 &= eta(p, r) quad qed 116 116 $ 117 + 118 + == Simplification de l'expression de $L(s, a, cal(P), cal(P)', R)$ dans PPO-Clip <proof-ppo-clip-simplify> 119 + 120 + Soit $(s, a) in S times A$, et $cal(P)'$ une politique. 121 + 122 + Posons $alpha := A_(cal(P), R) (s, a)$

Configure Feed

Configure Feed