Vous n'êtes pas identifié(e).
Imaginez que vous vous trouviez dans un casino avec des rangées de machines à sous, chacune promettant des gains différents. Votre objectif ?
Maximiser vos gains sans savoir quelle machine est la plus performante.
C'est l'essence même des problèmes MAB (Multi-Armed Bandit), un cadre permettant d'équilibrer l'exploration (tester des options incertaines) et l'exploitation (tirer parti de gagnants connus).
Dans le trading, les méthodes MAB constituent un cadre d'allocation du capital et du risque, c'est-à-dire qu'elles permettent d'allouer dynamiquement du capital à des stratégies, des actifs ou des ordres afin d'optimiser les rendements (ou les objectifs spécifiques de la stratégie/du portefeuille).
Mais comment ce concept mathématique se traduit-il sur les marchés financiers ?
Points clés :
➡️ Équilibrer l'exploration et l'exploitation - Les modèles MAB allouent dynamiquement le capital entre l'essai de nouvelles opportunités et la maximisation des profits des stratégies éprouvées.
➡️ Sélection adaptative des stratégies - Les traders peuvent utiliser MAB pour déplacer le capital vers les actifs ou les stratégies les plus performants, tout en conservant une réserve pour tester des alternatives (qui offrent une diversification ou des rendements encore plus élevés que les stratégies établies).
➡️ Optimisation algorithmique - MAB améliore l'automatisation des transactions en tirant des enseignements des évolutions du marché.
➡️ Prise de décision consciente du risque - Combiné à des mesures du risque, MAB évite la surexposition aux actifs volatils et garantit des rendements plus stables.
➡️ Au-delà des modèles traditionnels - MAB peut être combiné avec l'apprentissage par renforcement et les bandits contextuels. Cela permet d'optimiser l'exécution des ordres, la gestion des portefeuilles et l'élaboration des stratégies.
Comme notre analogie d'ouverture, le nom du bandit manchot vient de l'analogie d'un joueur confronté à plusieurs machines à sous, chacune avec des gains inconnus, qui doit décider comment répartir ses mises pour maximiser ses gains tout en apprenant quelles sont les machines les plus rentables.
Le problème MAB a été formalisé pour la première fois dans les années 1950 dans le domaine de la prise de décision séquentielle et de la théorie des probabilités, en particulier dans les essais cliniques et les problèmes d'allocation.
Il a depuis évolué pour devenir un concept clé de l'apprentissage par renforcement, de la finance et de l'optimisation en ligne, aidant à résoudre des problèmes concrets tels que :
la tarification dynamique
les tests A/B, et
l'allocation de portefeuille...
...en équilibrant l'exploration (tester des options inconnues) et l'exploitation (maximiser les récompenses connues).
L'essence du MAB réside dans le compromis exploration-exploitation. Un trader doit-il s'en tenir à une stratégie éprouvée (exploitation) ou tester de nouvelles approches (exploration) ?
Trop d'exploitation risque de faire rater de meilleures opportunités. Trop d'exploration brûle du capital, du temps et des ressources sur des paris qui n'ont pas fait leurs preuves.
Dans le trading cet équilibre est important. Les marchés évoluent avec le temps - l'actif ou la stratégie gagnante d'hier peut stagner demain.
Les algorithmes MAB quantifient cette incertitude et utilisent des méthodes statistiques pour allouer les ressources de manière adaptative.
Par exemple, lors d'une hausse du marché, un modèle MAB peut exploiter des stratégies dynamiques tout en allouant une partie des fonds à l'exploration d'actifs défensifs en cas de retournement.
Epsilon-Greedy : Simplicité
L'algorithme epsilon-greedy est la « roue d'entraînement » des méthodes MAB. Il divise les décisions en deux modes :
Exploitation (1-ε) - Affecter la plupart des ressources (par exemple, 80 %) à l'option historiquement la plus performante.
Exploration (ε) - Consacrer une petite partie des ressources (par exemple, 20 %) à l'essai aléatoire d'autres solutions.
Dans le domaine du trading, cela peut signifier que l'on consacre 80 % du capital à des stratégies plus stables et connues et que l'on utilise 20 % pour expérimenter des stratégies plus risquées et à plus haut rendement.
Des taux d'exploration fixes peuvent néanmoins faire rater des opportunités à court terme.
Le tampon exploratoire de 20 % peut ne pas être suffisant ou même ne pas donner de bons résultats au même moment.
Quelle est la part d'exploitation et quelle est la part d'exploration ?
L'équilibre entre l'exploration et l'exploitation est important tant pour la stratégie de trading que pour la stratégie d'entreprise.
Il nécessite une évaluation nuancée de plusieurs facteurs.
L'exploitation (par exemple, allouer 80 % des ressources à des stratégies éprouvées) dépend des performances historiques, de la stabilité et de la prévisibilité des risques.
Pour le trading, il peut s'agir de s'en tenir aux actifs ou aux algorithmes qui ont toujours produit des rendements, en supposant que les conditions du marché restent stables.
Pour les entreprises, l'exploitation s'appuie sur des produits établis, des bases de clients fidèles et des opérations rationalisées pour maximiser les profits à court terme.
Mais une dépendance excessive risque de conduire à la stagnation si les marchés évoluent ou si les concurrents innovent.
L'exploration (par exemple, consacrer 20 % à l'essai de nouvelles options) exige une tolérance à l'incertitude et un investissement dans des percées potentielles.
Les traders peuvent expérimenter des marchés émergents, des algorithmes non testés (sur des marchés réels) ou des sources de données alternatives.
Les entreprises peuvent investir dans la R&D, piloter de nouveaux marchés ou adopter des technologies de rupture.
Google, par exemple, dispose d'une branche de capital-risque, comme beaucoup d'autres entreprises, pour s'assurer qu'elles restent pertinentes.
L'exploration exige beaucoup de ressources, mais elle est vitale pour la résilience à long terme, comme on le voit dans des secteurs tels que la technologie, où les cycles d'innovation peuvent avoir un impact important sur la survie d'une entreprise.
Les facteurs clés qui influencent l'équilibre sont les suivants :
Besoins d'apprentissage - Quelqu'un qui est totalement novice dans un domaine devra d'abord explorer, puis consacrer progressivement plus de ressources à l'exploitation au fur et à mesure qu'il apprend ce qui fonctionne.
Goût du risque - Une tolérance élevée au risque favorise l'exploration. Les environnements conservateurs donnent la priorité à l'exploitation.
Dynamique du marché - Les marchés volatiles ou saturés nécessitent davantage d'exploration.
Flexibilité des ressources - Des capitaux abondants permettent d'expérimenter davantage sans mettre en péril les activités de base.
Pression concurrentielle - Les innovations des concurrents peuvent imposer une exploration accrue.
Boucles de rétroaction - L'analyse rapide des données (par exemple, l'apprentissage automatique) permet d'ajuster dynamiquement les allocations.
Le problème du bandit à plusieurs bras illustre ce compromis :
Optimiser les gains immédiats tout en recueillant des informations en vue de récompenses futures.
Pour le trading, l'apprentissage par renforcement peut guider les ajustements en temps réel. Dans le monde des affaires, les méthodologies agiles permettent des tests itératifs.
En fin de compte, le succès réside dans le calibrage dynamique du ε (taux d'exploration) en fonction de l'évolution des objectifs, des risques et des opportunités. Ainsi, ni l'autosatisfaction ni le manque de concentration sur ce qui est rentable ne dominent.
L'échantillonnage de Thompson : Approche bayésienne de l'incertitude
L'échantillonnage de Thompson utilise des distributions de probabilités pour modéliser l'incertitude.
Chaque « bras » (par exemple, une action) se voit attribuer une distribution de récompense mise à jour après chaque transaction. L'algorithme échantillonne ces distributions pour choisir l'action suivante.
Par exemple, un trader peut modéliser Microsoft (MSFT) et Apple (AAPL) comme des distributions bêta reflétant les rendements passés.
Si la distribution de MSFT suggère une probabilité de 70% de surperformer AAPL, l'algorithme alloue plus de fonds à MSFT - mais teste occasionnellement AAPL pour affiner ses estimations.
Cette méthode peut s'avérer plus efficace sur des marchés volatils où la performance des actifs est irrégulière.
Limite supérieure de confiance (LSC) : Équilibrer le risque et la récompense
L'algorithme UCB donne la priorité aux options dont la « limite supérieure de confiance » est la plus élevée, calculée comme suit :
UCB = Récompense moyenne + √ (2 * ln(Nombre total de parties) / Nombre de parties par bras)
Le premier terme récompense l'exploitation ; le second pénalise les bras sous-explorés.
Dans le cadre du trading, UCB pourrait favoriser une action biotechnologique avec des rendements modérés mais un fort potentiel de croissance par rapport à une action stable dans le secteur des services publics.
Allocation dynamique des actifs
La MAB brille dans l'optimisation des portefeuilles, où les actifs sont en concurrence pour le capital.
Prenons l'exemple d'un robo-advisor qui gère un portefeuille d'ETF :
Bras - ETFs (par exemple, SPY, GLD, TLT).
Récompenses - Rendements quotidiens ajustés en fonction du risque.
Action - Ajustement hebdomadaire des pondérations.
Un système basé sur l'échantillonnage de Thompson pourrait réorienter les allocations vers des secteurs qui ont le vent en poupe (par exemple, les valeurs technologiques pendant le boom de l'IA) tout en conservant une exposition à l'or en tant que couverture largement décorrélée des autres actifs financiers à long terme.
Sélection et optimisation des stratégies
Les traders jonglent souvent avec plusieurs stratégies : arbitrage, suivi de tendance, retour à la moyenne, etc.
MAB traite chaque stratégie comme un bras, récompensant celles qui présentent les ratios de Sharpe les plus élevés.
Par exemple, un fonds quantitatif peut utiliser l'UCB pour choisir entre :
Une stratégie d'arbitrage à haute fréquence (faibles rendements, forte cohérence).
Une stratégie de contrats à terme à effet de levier (rendements élevés, pertes importantes).
L'équilibre de l'UCB permet d'éviter un engagement excessif dans la stratégie de contrats à terme volatils malgré ses gains occasionnels.
Exécution adaptative des ordres
Exécuter des ordres importants sans faire bouger les marchés est un art. Les modèles MAB peuvent choisir entre les pools de liquidité (par exemple, les dark pools, les bourses) afin de minimiser les slippages.
Imaginons qu'un trader institutionnel vende 100 000 actions. L'algorithme :
Il exploite les dark pools pour les ventes à faible impact.
Il explore les petites bourses pour obtenir de meilleurs prix.
Au fil du temps, il apprend quelles sont les places qui offrent des remplissages optimaux pour des tailles d'ordre spécifiques.
Gestion des risques et atténuation des prélèvements
L'objectif du MAB n'est pas seulement de maximiser les rendements, mais aussi de survivre.
L'intégration de mesures du risque (par exemple, la valeur à risque) dans les fonctions de récompense permet aux algorithmes d'éviter les paris qui ne correspondent pas à une gestion raisonnable du risque.
Un fonds spéculatif pourrait utiliser la méthode epsilon-greedy avec des garde-fous.
Par exemple, l'exploration est limitée aux actifs à faible volatilité pendant les périodes de ralentissement du marché. Cela permet d'éviter de « jouer » sur des actions spéculatives lorsque la préservation du capital est essentielle ou lorsque la marge n'est pas assez élevée.
Marchés non stationnaires et dérive des concepts
Les marchés financiers ne sont pas stationnaires - les modèles d'aujourd'hui peuvent disparaître demain.
Un modèle MAB formé sur la frénésie des actions mèmes de 2021 pourrait surexploiter les petites capitalisations volatiles dans un marché baissier en 2022.
Solutions :
Fenêtres coulissantes - N'utiliser que des données récentes (par exemple, les 30 derniers jours), utiliser des données sur des périodes plus longues ou utiliser des données synthétiques pour simuler différents environnements.
Facteurs de décroissance - Pondérer davantage les données récentes.
Espaces d'action à haute dimension
Que se passe-t-il si un trader doit choisir entre 10 000 actions ? La méthode traditionnelle MAB n'est pas adaptée aux bras.
Solutions de contournement :
Regroupement - regrouper les actifs similaires (par exemple, les actions technologiques).
Bandits contextuels - Utiliser les métadonnées (par exemple, les ratios cours/bénéfice) pour généraliser entre les différents bras.
Ingénierie des caractéristiques - Réduire la complexité en sélectionnant des facteurs clés (par exemple, la dynamique, la volatilité, la croissance des bénéfices) pour filtrer et classer les actions par ordre de priorité avant d'appliquer le MAB.
Apprentissage par renforcement profond (DRL) - Utiliser des réseaux neuronaux pour approximer les fonctions de valeur, ce qui permet au modèle de généraliser les décisions à travers un large univers d'actifs.
Coûts de transaction et slippage
Les rééquilibrages fréquents brûlent le capital en raison des frais et des slippages. Un algorithme MAB peut passer fréquemment d'une préférence à l'autre, ce qui érode les bénéfices.
Mesures d'atténuation :
Mises à jour par lots - Rééquilibrer chaque semaine et non chaque heure.
Récompenses tenant compte des coûts - Soustraire les coûts de transaction du calcul des récompenses.
Intégration de MAB et de l'apprentissage par renforcement (RL)
Alors que le MAB traite les décisions simples « sans état », l'apprentissage par renforcement ajoute une profondeur temporelle, c'est-à-dire qu'il tient compte de l'incidence de la transaction d'aujourd'hui sur le marché de demain.
Les modèles hybrides pourraient utiliser MAB pour les décisions tactiques (par exemple, la sélection des actions, l'ajustement de l'effet de levier) et RL pour les changements stratégiques (par exemple, comment ajuster l'allocation d'actifs).
Bandits contextuels pour un trading personnalisé
Les bandits contextuels utilisent des données externes (par exemple, les changements de taux de la Fed, les rapports sur les bénéfices) pour éclairer leurs décisions.
Un modèle pourrait apprendre que les actions de valeur surperforment avant les hausses de taux et ajuster l'allocation de manière préventive.
Considérations éthiques et conformité réglementaire
L'adaptabilité du MAB soulève des questions.
Pourrait-il manipuler les marchés en exploitant les écarts de liquidité ?
Les traders doivent vérifier l'équité et la transparence des algorithmes, en particulier lorsqu'ils gèrent les fonds de leurs clients.
Les méthodes de bandits multibras offrent aux traders un moyen mathématiquement rigoureux de gérer l'incertitude et de mieux optimiser leurs processus.
De l'optimisation des portefeuilles à l'exécution des ordres, le mélange d'exploration et d'exploitation de MAB s'aligne sur la façon dont les marchés « apprennent » au fil du temps.
Cependant, des défis tels que la non-stationnarité et les coûts de transaction exigent que l'on procède avec prudence et que l'on n'adhère pas à des modèles académiques qui ne saisissent pas les nuances de ce qui se passe dans le monde réel du trading.
À mesure que les transactions deviennent de plus en plus algorithmiques, le rôle de MAB s'accroît, surtout lorsqu'il est combiné à des techniques d'intelligence artificielle telles que le RL.
Pour les traders, la leçon est claire : il faut s'adapter pour ne pas se laisser distancer.
Le trading de CFD implique un risque de perte significatif, il ne convient donc pas à tous les investisseurs. 74 à 89% des comptes d'investisseurs particuliers perdent de l'argent en négociant des CFD.
Hors ligne