Estimating Policy Functions in Payments Systems Using Reinforcement Learning

Castro, Pablo S.; Desai, Ajit; Du, Han; Garratt, Rodney J.; Rivadeneyra, Francisco

doi:10.34989/swp-2021-7

Estimating Policy Functions in Payments Systems Using Reinforcement Learning

Document de travail du personnel 2021-7 (anglais)

Pablo S. Castro, Ajit Desai, Han Du, Rodney J. Garratt, Francisco Rivadeneyra

Février 2021

Disponible en format(s) : PDF

Les systèmes de paiement de grande valeur servent à régler les transactions entre les grandes institutions financières. Ces systèmes sont considérés comme l’infrastructure financière nationale de base. Dans cette étude, nous utilisons des techniques d’apprentissage automatique pour comprendre le comportement des banques qui participent au système de paiement de grande valeur canadien. Les nouvelles connaissances acquises de cette manière pourraient aider les autorités de réglementation à élaborer des politiques permettant d’assurer la sûreté et l’efficience de ces systèmes.

Nous cherchons en particulier à comprendre une décision importante que doit prendre chaque banque participant au système de paiement de grande valeur, à savoir le montant de liquidité qu’elle choisit de fournir en début de journée. La banque participante doit en effet disposer d’un montant de liquidité initial pour traiter les paiements, mais cette affectation lui coûte cher. D’un autre côté, une affectation trop faible de liquidités risque de retarder ces paiements, ce qui lui coûte cher également. Le choix du montant de liquidité initial est une décision stratégique, parce que la banque peut utiliser les paiements entrants d’autres participants pour effectuer ses propres paiements, mais le moment où arrivent ces paiements entrants dépend lui-même du montant de liquidité initial des autres participants.

Comme ce problème est complexe sur le plan analytique, nous recourons à l’apprentissage par renforcement pour estimer la fonction de réaction optimale. Nous évitons ainsi de modéliser les stratégies de la banque participante. Au lieu de cela, l’algorithme d’apprentissage par renforcement apprend une stratégie en interagissant avec l’environnement du système de paiement. Dans un contexte simplifié où nous connaissons le comportement optimal, nous montrons que les techniques d’apprentissage par renforcement permettent de reproduire le comportement attendu de la banque participante. Dans un cadre plus réaliste, les décisions touchant les liquidités sont trop complexes pour qu’on puisse les résoudre de façon analytique. Les agents d’apprentissage par renforcement ont appris à réduire le coût total du traitement des paiements malgré une connaissance partielle de l’environnement ou des flux de paiement. Nos résultats révèlent que les techniques d’apprentissage par renforcement aident à comprendre le comportement des participants aux systèmes de paiement. Des travaux futurs seront menés pour étudier la possibilité de recourir à des politiques d’apprentissage par renforcement basées sur des paramètres estimés en vue de concevoir des systèmes de paiement plus efficients.

Type(s) de contenu : Travaux de recherche du personnel, Documents de travail du personnel

Code(s) JEL : A, A1, A12, C, C7, D, D8, D83, E, E4, E42, E5, E58

Thème(s) de recherche : Argent et paiements, Actifs numériques et technologies financières, Infrastructures de paiement et de marchés financiers, Modèles et outils, Méthodes économétriques, statistiques et computationnelles

DOI : https://doi.org/10.34989/swp-2021-7

Direction et gouvernance

Accessibilité

Plan d’action pour la réconciliation

Musée de la Banque du Canada

Qu’est-ce qu’une banque centrale?

Travailler à la Banque

Direction et gouvernance

Accessibilité

Plan d’action pour la réconciliation

Musée de la Banque du Canada

Qu’est-ce qu’une banque centrale?

Travailler à la Banque

En vedette

Renouvellement du cadre de politique monétaire du Canada

Supervision des paiements de détail

Obligations hypothécaires du Canada

Prévention de la contrefaçon

Notre prochain billet de 20 $

Résultats d’enquête économique

Rapport sur la politique monétaire - Janvier 2026

Pourquoi le conflit commercial n’a pas fait dérailler les chaînes d’approvisionnement

Pourquoi le conflit commercial n’a pas fait dérailler les chaînes d’approvisionnement

Information

Discours : Empire Club of Canada

Projections économiques établies par le personnel

Estimating Policy Functions in Payments Systems Using Reinforcement Learning