Jouer à Connect Four avec Deep Q-Learning

nous avons exploré comment étendre l’apprentissage par renforcement (RL) au-delà du cadre tabulaire en utilisant l’approximation des fonctions. Bien que cela nous ait permis de généraliser à travers les états, nos expériences ont également révélé une limitation importante : dans des environnements simples comme GridWorld, les méthodes approximatives peuvent avoir du mal à égaler la stabilité et l’efficacité des approches tabulaires. La raison principale est que l’apprentissage d’une bonne représentation est en soi un problème difficile, qui peut contrebalancer les avantages de la généralisation lorsque l’espace d’état est encore relativement petit.

Pour véritablement libérer la puissance de l’approximation des fonctions, nous devons donc nous déplacer vers des environnements où les méthodes tabulaires ne sont plus viables. Ceci nous amène naturellement à jeux multijoueursoù l’espace d’état se développe de manière combinatoire et où la généralisation devient essentielle – et en même temps s’intègre parfaitement dans cette série d’articles, car jusqu’à présent, nous n’avons pas réussi à apprendre de comportement significatif sur des environnements multi-joueurs plus complexes. Dans cet article, nous franchissons cette étape en considérant le jeu classique de Connect Four et étudions comment apprendre des politiques fortes en utilisant Apprentissage Q profond.