this repo has no description
0
fork

Configure Feed

Select the types of activity you want to include in your feed.

Continue rapport

+11 -3
+11 -3
rapport/context.typ
··· 98 98 / Le remplissage du tableau: devient la rétropropagation pendant l'entraînement 99 99 100 100 101 - === Tendances à la "tricherie" des agents 101 + === Nécéssité de la validation 102 102 103 103 Expérimentalement, on sait que des tendances "tricheuses" émergent facilement pendant l'entraînement: l'agent découvre des séries d'actions qui causent un bug avantageux vis à vis du coût associé, soit parce qu'il y a un bug dans le calcul de l'état de l'environnement post-action, soit parce que la fonction coût ne prend pas suffisemment bien en compte toutes les possibilités de l'environnement (autrement dit, il manque de contraintes). 104 104 ··· 116 116 117 117 Ces phénomènes, appelés _"glitches"_ dans le jargon du jeu vidéo, peuvent se manifester de diverses manières: 118 118 119 - / _No clip_: passage à travers un objet solide à cause de cas limites dans les calculs de collision joueur-objet 120 - / Téléportation: mouvement brutal du joueur sur des grandes distances sans cause raisonnable, souvent causé par des erreurs dans le calcul des coordonnées de sa position 119 + #comment[ Compliqué sans vidéo... ptet à remplacer par une phrase seulement, ou alors c'est peut-être déjà assez clair sans exemples? ] 121 120 121 + - Le passage à travers un objet solide à cause de cas limites dans les calculs de collision joueur-objet (appelé _No clip_) 122 + - La téléportation du joueur sur des grandes distances sans cause raisonnable, souvent causé par des erreurs dans le calcul des coordonnées de sa position 123 + - La projection d'un objet a une vitesse extrême, souvent causé par des cas limites dans le calcul de la vélocité lors d'une collision 124 + 125 + Bien évidemment, pour l'agent, tant qu'un bug n'est pas explicitement découragé par sa prise en compte dans la fonction coût, si l'état résultant améliore le score, l'agent apprendra à faire cette action quand c'est utile. 126 + 127 + #comment[ Rien à voir mais je me dis, c'est enfait un moyen de trouver des bugs dans un physics engine ! ça me fait penser au Fuzzing un peu, mais avec un NN plutôt que du hasard contrôlé ] 128 + 129 + ==== 122 130 123 131 == Application en robotique 124 132
rapport/main.pdf

This is a binary file and will not be displayed.