···183183=== Descente de gradient
184184185185186186-==== _Deep Q-Network_
186186+==== _Q-learning_
187187188188+La récompense associée à un état et une action, appelée $Q$ ici pour "quality" #refneeded, est mise à jour ainsi:
188189190190+$
191191+Q(S_t, A_t) <- (1 - alpha) underbrace(Q(S_t, A_t), "valeur actuelle") + alpha ( underbrace(R_(t+1), "récompense") + gamma underbrace(max_a Q(S_(t+1), a), "récompense de la meilleure\naction pour l'état suivant") )
192192+$
189193190194==== _Trust Region Policy Optimization_
191195