Nous montrons que les techniques d’apprentissage par renforcement permettent d’estimer les fonctions de réaction optimale des banques qui participent aux systèmes de paiement de grande valeur – un jeu stratégique du monde réel caractérisé par des informations incomplètes.