···37373838#let exhaustive_memory_table = (caption, filled: false) => {
3939 let maybe = content => if filled { content } else { [] }
4040- let costs = (plus_one, minus_one) => [ $L(+1) = #plus_one, L(-1) = #minus_one$ ]
4141- pad(x: 10%, figure(
4040+ let costs = (plus_one, minus_one) => [ $L(x+1,) = #plus_one quad L(x-1,) = #minus_one$ ]
4141+ pad(x: 7%, y: 10%, figure(
4242 table(
4343- columns: (2fr, 1.2fr, 3fr),
4444- align: left,
4343+ columns: (2fr, 1.9fr, 3fr),
4444+ align: (left, center, left),
4545 inset: 8pt,
4646- [*État courant* $(x, "retour")$], [*Action* \ +1 ou -1], [*Coûts associés* \ #maybe[avec $L = (x, "retour") |-> |x-2|$]],
4646+ [*État actuel* \ $(x, "retour")$], [*Meilleure action* \ +1 ou -1], [*Coûts associés* \ #maybe[avec $L = (x, "retour") |-> |x-2|$]],
4747 [ $(0, "C'est plus")$ ], maybe[ +1 ], maybe(costs(2, 2)),
4848 [ $(1, "C'est plus")$ ], maybe[ +1 ], maybe(costs(1, 2)),
4949 [ $(3, "C'est moins")$ ], maybe[ -1 ], maybe(costs(2, 3)),
···58585959L'entraînement consiste donc ici en l'exploration de l'entièreté des états possibles de l'environnement, et, pour chaque état, le calcul du coût associé à chaque action possible. On remplit la colonne "Action à effectuer" avec l'action associée au coût le plus bas.
60606161+Il faut définir la fonction de coût, souvent appelée $L$ pour _loss_:
6262+6363+$
6464+L: E -> S
6565+$
6666+6767+avec $E$ l'ensemble des états possibles de l'environnement, et $S$ un ensemble muni d'un ordre total (on utilise souvent $[0, 1]$)
6868+6969+Quand on parle de "coût d'une action", on parle du coût de l'état résultant de l'application de l'action en question à l'état actuel
7070+6171#exhaustive_memory_table(filled: true)[ Entraînement terminé, avec pour fonction coût $L$ la distance à la solution ]
62726373Ici, cette approche exhaustive suffit parce que l'ensemble des états possibles de l'environnement, $E$, posssède 6 éléments
64746565-Cependant, ces ensembles sont bien souvent prohibitivement grands (e.g. $n in [| 0, 10^34 |]$), infinis ($n in NN$) ou indénombrables ($n in RR$)
7575+Cependant, ces ensembles sont bien souvent prohibitivement grands (e.g. $x in [| 0, 10^34 |]$), infinis ($x in NN$) ou indénombrables ($x in RR$)
66766777Dans le cas de la robotique, $E$ est une certaine représentation numérique du monde réel autour du robot, on imagine donc bien qu'il y a beaucoup trop d'états possibles.
6878