···4343 columns: (2fr, 1.2fr, 3fr),
4444 align: left,
4545 inset: 8pt,
4646- [*État courant* $(x, "retour")$], [*Action* \ +1 ou -1], [*Coûts associés*],
4646+ [*État courant* $(x, "retour")$], [*Action* \ +1 ou -1], [*Coûts associés* \ #maybe[avec $L = (x, "retour") |-> |x-2|$]],
4747 [ $(0, "C'est plus")$ ], maybe[ +1 ], maybe(costs(2, 2)),
4848 [ $(1, "C'est plus")$ ], maybe[ +1 ], maybe(costs(1, 2)),
4949 [ $(3, "C'est moins")$ ], maybe[ -1 ], maybe(costs(2, 3)),
···58585959L'entraînement consiste donc ici en l'exploration de l'entièreté des états possibles de l'environnement, et, pour chaque état, le calcul du coût associé à chaque action possible. On remplit la colonne "Action à effectuer" avec l'action associée au coût le plus bas.
60606161-On peut définir la fonction coût par la distance de $x$ à la solution: $(x, "retour") |-> | x - 2 |$
6262-6363-#exhaustive_memory_table(filled: true)[ Entraînement terminé ]
6464-6565-Ici, cette approche exhaustive suffit parce que l'ensemble des états possibles de l'environnement, $E$, posssède 6 éléments//:
6161+#exhaustive_memory_table(filled: true)[ Entraînement terminé, avec pour fonction coût $L$ la distance à la solution ]
66626767-// $
6868-// "card" E &= "card" ( { "C'est plus", "C'est moins" } times { 0, 1, 2 } ) \
6969-// &= "card" { "C'est plus", "C'est moins" } dot "card" { 0, 1, 2 } \
7070-// &= 2 dot 3 = 6
7171-// $
6363+Ici, cette approche exhaustive suffit parce que l'ensemble des états possibles de l'environnement, $E$, posssède 6 éléments
72647365Cependant, ces ensembles sont bien souvent prohibitivement grands (e.g. $n in [| 0, 10^34 |]$), infinis ($n in NN$) ou indénombrables ($n in RR$)
7466