Modèles de prévision des séries temporelles en trading

Climax · 05-04-2024 16:49:37

Modèles de prévision des séries temporelles en trading

Les modèles de prévision des séries temporelles dans le trading sont des techniques statistiques utilisées pour prédire les valeurs futures des actifs financiers sur la base de données historiques.

Ces modèles tentent d'identifier des modèles et des tendances dans les données de séries temporelles afin d'aider les traders à prendre des décisions éclairées sur les points d'entrée et de sortie, ainsi que sur les stratégies de gestion des risques.

Des prévisions précises peuvent offrir un avantage concurrentiel sur les marchés, mais il est important de valider et d'affiner continuellement ces modèles et de les combiner avec d'autres formes d'analyse.

Principaux enseignements :
➡️ Moyennes mobiles (MA)
➡️ Moyenne mobile intégrée autorégressive (ARIMA)
➡️ Lissage exponentiel
➡️ Hétéroscédasticité conditionnelle autorégressive généralisée (GARCH)
➡️ Réseaux neuronaux récurrents (RNN) et mémoire à long terme (LSTM)
➡️ Autorégression vectorielle (VAR) et modèle vectoriel de correction d'erreur (VECM)
➡️ Modèles de commutation de Markov
➡️ Réseaux neuronaux et apprentissage automatique
➡️ Applications dans le domaine du trading
➡️ Exemples de codage ci-dessous

Moyennes mobiles (MA)

Les moyennes mobiles sont bien connues et représentent des séries temporelles simples.

Moyennes mobiles simples (SMA)

Calcule le prix moyen sur une période donnée afin d'identifier les tendances et les niveaux de support/résistance potentiels.

Moyennes mobiles exponentielles (EMA)

Semblable à la SMA, mais elle accorde plus d'importance aux prix récents, ce qui la rend plus réactive aux nouvelles informations.

Moyenne mobile intégrée autorégressive (ARIMA)

Combine les composantes autorégressives et de moyenne mobile pour modéliser les données de séries temporelles, particulièrement efficace pour les données non stationnaires après différenciation.

Lissage exponentiel

Lissage exponentiel simple (SES)

Se concentre sur les points de données les plus récents pour établir des prévisions. Convient aux données qui ne présentent pas de tendance claire ou de schéma saisonnier.

Lissage exponentiel de Holt-Winters

Étend le lissage exponentiel pour traiter les données présentant des tendances et une saisonnalité.

Méthode des tendances de Holt

Capture les tendances au sein des données.

Hétéroscédasticité conditionnelle autorégressive généralisée (GARCH)

Modélise la volatilité dans les séries temporelles financières, en capturant la nature variable de la volatilité pour l'évaluation des options et la gestion des risques.

Réseaux neuronaux récurrents (RNN) et mémoire à long terme (LSTM)

Modèles d'apprentissage profond efficaces pour la prévision de données de séries temporelles complexes et non linéaires, capturant les dépendances à long terme.

Autorégression vectorielle (VAR) et modèle vectoriel de correction d'erreur (MVCE)

VAR

Capture les interdépendances entre plusieurs variables de séries temporelles.

VECM

Utilisé lorsque les variables sont cointégrées, ce qui indique une relation d'équilibre à long terme.

Modèles de commutation de Markov

Tiennent compte des changements de régime ou des ruptures structurelles dans les données de séries temporelles, utiles pour saisir les cycles de marché et les changements de régime de trading.

Analyse par ondelettes

Décompose les séries temporelles en diverses composantes de fréquence afin d'analyser et de prévoir des modèles à différentes échelles de temps.

Décomposition saisonnière des séries temporelles (STL)

Décompose une série temporelle en composantes saisonnières, tendancielles et résiduelles, ce qui est utile pour les séries temporelles présentant de fortes tendances saisonnières.

Prophète

Développé par Facebook pour la prévision avec des observations quotidiennes qui affichent des modèles à différentes échelles de temps, robustes aux données manquantes et aux changements de tendance.

Réseaux neuronaux et apprentissage automatique

Réseaux neuronaux récurrents (RNN)

Conçus pour les données de séries temporelles, ils retiennent les informations des étapes temporelles précédentes.

Réseaux à mémoire à long terme (LSTM)

Un type de réseau neuronal récurrent capable de gérer les dépendances à long terme.

Autres modèles

comprennent XGBoost et Random Forests pour les prévisions de séries temporelles.

Applications dans le domaine du trading

Prédiction des prix

Les traders essaient souvent de prévoir les prix futurs des actifs afin de prendre des décisions d'achat ou de vente en connaissance de cause.

Analyse des tendances

Identification des tendances sous-jacentes (à la hausse, à la baisse, de côté) pour développer des stratégies de trading.

Prévision de la volatilité

Évaluer la volatilité future des prix des actifs afin de gérer les risques et d'optimiser les positions de trading.

Trading algorithmique

Les modèles de séries temporelles sont des composants essentiels des systèmes de trading automatisés qui effectuent des transactions sur la base de l'analyse des données.

Considérations

Stationnarité

De nombreux modèles traditionnels de séries temporelles supposent que les données sont stationnaires. Les traders transforment souvent les données non stationnaires avant d'appliquer ces modèles.

Complexité

Les réseaux neuronaux et les modèles d'apprentissage automatique offrent une plus grande flexibilité mais peuvent être plus difficiles à interpréter.

Analyse fondamentale

Il est essentiel de se rappeler que les modèles de séries temporelles s'appuient uniquement sur des données historiques de prix. Il est préférable de combiner leurs informations avec l'analyse fondamentale, qui examine la santé financière d'une entreprise, son secteur d'activité et des facteurs économiques plus généraux.

Améliorer les modèles de séries temporelles

Ces modèles, qui incluent ARIMA, GARCH et d'autres, s'appuient traditionnellement sur des théories statistiques et mathématiques pour prévoir des valeurs futures sur la base d'observations passées.

Malgré leur utilisation répandue, les modèles de séries temporelles en finance présentent plusieurs limites :

Hypothèses linéaires

De nombreux modèles de séries temporelles supposent une relation linéaire entre les valeurs passées et futures, négligeant souvent la dynamique complexe et non linéaire des marchés financiers.

Exigence de stationnarité

Ces modèles exigent généralement que les données soient stationnaires, c'est-à-dire que leurs propriétés statistiques ne changent pas au fil du temps.

Cependant, les données financières présentent souvent des tendances, des regroupements de volatilité et des ruptures structurelles, ce qui remet en cause cette hypothèse.

Dépendance à l'égard des données historiques

L'analyse des séries temporelles s'appuie fortement sur les données historiques.

Dans des environnements qui évoluent rapidement, comme les marchés financiers, les modèles passés peuvent ne pas prédire de manière fiable les mouvements futurs, en particulier face à des événements sans précédent ou à des changements dans la dynamique du marché.

Intégration limitée des facteurs externes

Les modèles traditionnels peuvent ne pas intégrer de manière adéquate des facteurs externes ou des informations qualitatives, tels que des changements de réglementation, le sentiment du marché ou des événements géopolitiques, qui peuvent avoir un impact significatif sur les résultats financiers.

Amélioration des séries temporelles

Les séries chronologiques sont basées uniquement sur des données historiques, et la prédiction de l'avenir sur la base de données historiques n'est généralement pas assez solide en soi.

Vous devrez généralement fournir d'autres formes d'analyse.

Prenons l'exemple des grands modèles de langage.

Les LLM offrent une nouvelle façon d'aborder les limites inhérentes aux modèles traditionnels de séries temporelles en finance en tirant parti de leur capacité à lire pratiquement tout ce qui a été écrit et à écrire/théoriser sur les données qui leur ont été fournies.

Voici comment les LLM peuvent compléter et améliorer l'analyse des séries temporelles :

Incorporation de données qualitatives

Les LLM peuvent analyser de grandes quantités de données qualitatives, telles que des articles de presse, des rapports financiers et le sentiment des médias sociaux, en intégrant des facteurs externes qui influencent considérablement les marchés financiers.

Reconnaissance de formes complexes

Grâce à l'apprentissage profond, les LLM peuvent identifier des modèles complexes et non linéaires dans de grands ensembles de données, capturant des relations que les modèles traditionnels de séries temporelles peuvent manquer.

Adaptation dynamique du modèle

Les LLM peuvent apprendre en continu à partir de nouvelles données, ce qui permet aux modèles de s'adapter aux conditions changeantes du marché de manière plus dynamique que les modèles statiques et historiquement dépendants.

Analyse et simulation de scénarios

En générant des scénarios basés sur du texte, les LLM peuvent simuler différents états futurs du monde, offrant un ensemble plus riche de possibilités pour les tests de stress et l'analyse de scénarios au-delà des contraintes des données historiques.

Exemple de codage n° 1 - Série temporelle LSTM sur des données cycliques

La conception d'un modèle de mémoire à long terme (LSTM) pour l'analyse des séries temporelles implique le prétraitement des données, la construction du modèle et l'entraînement.

Voici un aperçu de haut niveau de la manière dont vous pourriez concevoir un modèle LSTM pour la prévision des séries temporelles :

1. Prétraitement des données

Collecte des données - Ensemble de données de séries temporelles avec des intervalles de temps cohérents (par exemple, quotidien, mensuel).
Nettoyer les données - Traiter les valeurs manquantes, supprimer les valeurs aberrantes et s'assurer que la qualité des données est bonne pour l'apprentissage du modèle.
Normalisation des données - Mise à l'échelle des données dans une plage spécifique (souvent de 0 à 1) pour améliorer la vitesse de convergence et la stabilité du modèle LSTM.
Création de séquences - Convertir la série temporelle en un problème d'apprentissage supervisé. Par exemple, utiliser les pas de temps précédents comme variables d'entrée pour prédire le(s) pas de temps suivant(s).

2. Construction du modèle

Définir l'architecture du modèle :

Couche d'entrée - Définir la forme (nombre de pas de temps et de caractéristiques par pas).
Couche(s) LSTM - Choisissez le nombre d'unités LSTM (neurones). Plusieurs couches peuvent augmenter la capacité du modèle à capturer des modèles complexes.
Couche(s) d'exclusion - Facultative, elle permet d'éviter l'adaptation excessive en excluant de manière aléatoire des unités du réseau neuronal au cours de la formation.
Couche de sortie - Généralement un neurone pour les prévisions univariées ou plusieurs pour les prévisions multivariées.

Compiler le modèle :

Fonction de perte - L'erreur quadratique moyenne (MSE) ou l'erreur absolue moyenne (MAE) sont courantes pour les problèmes de régression.
Optimiseur - Adam, SGD ou autres pour minimiser la fonction de perte.

3. Formation du modèle

Séparation formation-test - Diviser les données en ensembles de formation et de test pour évaluer les performances du modèle.
Ajuster le modèle - Entraîner le modèle à l'aide des données d'entraînement, en spécifiant le nombre d'époques (itérations) et la taille du lot.
Validation - Utiliser une partie des données d'entraînement ou des données de validation distinctes pour ajuster les hyperparamètres et éviter l'ajustement excessif.

4. Évaluation et test du modèle

Évaluation des performances - Utiliser les données de test pour évaluer les performances du modèle, généralement à l'aide de mesures telles que RMSE (Root Mean Squared Error), MAE, etc.
Ajustement des paramètres - Ajuster les paramètres du modèle sur la base des mesures de performance afin d'améliorer la précision et de réduire le surajustement.

5. Prédiction et déploiement

Prévision - Utiliser le modèle pour faire des prévisions sur de nouvelles données.
Déploiement - Intégrer le modèle dans un environnement de production pour des prévisions en temps réel ou par lots.

Voici un exemple de code montrant comment LTSM peut être utile pour les modèles cycliques (assurez-vous que les bibliothèques appropriées sont installées) :

import numpy as np
import matplotlib.pyplot as plt

# Générer des données synthétiques de séries temporelles (modèle sinusoïdal/cyclique)
t = np.linspace(0, 10, 1000) # Time variable
data = np.sin(2 * np.pi * 0.3 * t) + np.random.normal(scale=0.2, size=t.shape) # Sinusoidal data with noise

# Tracer les données de la série temporelle synthétique
plt.figure(figsize=(10, 6))
plt.plot(t, data, label='Synthetic Time Series Data')
plt.title('Synthetic Time Series Data')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

# Répartition entre la formation et l'essai
train_size = int(len(data) * 0.8)
test_size = len(data) - train_size
train_data, test_data = data[0:train_size], data[train_size:len(data)]

# Répartition du temps pour le tracé
train_time, test_time = t[0:train_size], t[train_size:len(t)]

# Tracer les données d'entraînement et de test
plt.figure(figsize=(10, 6))
plt.plot(train_time, train_data, label='Training Data')
plt.plot(test_time, test_data, label='Testing Data')
plt.title('Train-Test Split of Time Series Data')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# En supposant que les données soient préparées de manière appropriée pour LSTM (mises à l'échelle, séquencées, etc.)
# Nous utilisons ici les données directement pour des raisons de simplicité ; dans la pratique, vous devriez les prétraiter.

# Définition du modèle
model = Sequential()
model.add(LSTM(units=50, return_sequences=False, input_shape=(1, 1)))
model.add(Dense(1))
model.compile(optimizer='adam', loss='mean_squared_error')

# En supposant que X_train et y_train sont créés à partir de train_data
model.fit(X_train, y_train, epochs=10, batch_size=1)

# Prédictions hypothétiques du modèle
predictions = model.predict(X_test)

# Tracer les résultats
plt.figure(figsize=(10, 6))
plt.plot(test_time, test_data, label='True Test Data')
plt.plot(test_time, predictions, label='Predicted Data')
plt.title('LSTM Model Predictions vs True Data')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

Plus le nombre d'époques* est élevé, plus le code sera lent. Nous n'en avons fait que 10 pour l'accélérer, au prix d'une moindre précision.

*Une époque dans la formation LSTM est un passage complet à travers l'ensemble des données de formation au cours duquel les poids du modèle sont mis à jour.

Résultats

Voici nos données synthétiques de séries temporelles :

Et voici comment les données d'apprentissage s'adaptent aux données de test (c'est-à-dire qu'elles saisissent ce que sont les données et les prédisent bien) :

Exemple de codage n° 2 - LTSM pour les prévisions de cours des actions

Supposons que nous voulions étudier une action dont les données vont de 1970 au début de 2024 et que nous voulions utiliser ces données pour prédire la performance de l'action entre 2024 et 2034.

Nous allons utiliser des données synthétiques et nous assurer qu'elles représentent correctement une action en ayant un facteur de dérive + une composante de volatilité.

Pour créer et former un modèle LSTM permettant de prédire les cours boursiers de cette manière, nous suivons généralement les étapes suivantes :

Générer des données boursières synthétiques. Utiliser des données réelles pour des cas concrets.
Prétraiter les données pour le modèle LSTM.
Définir l'architecture du modèle LSTM.
Compiler le modèle à l'aide d'une fonction de perte (par exemple, l'erreur quadratique moyenne) et d'un optimiseur (par exemple, Adam).
Entraînez le modèle à l'aide des données d'entraînement.
Évaluer les performances du modèle sur les données de test.
Prédisez ce que vous voulez prédire.
Évaluer les performances du modèle.

Voici à quoi pourrait ressembler le code :

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

# Générer des données synthétiques sur les prix des actions de 1970 à 2024
np.random.seed(153)
years = np.arange(1970, 2025)
trend = 100 * (np.exp(0.06 * (years - 1970))) # Exponential growth to simulate stock price increase
volatility = np.random.normal(0, 0.1, len(years)) * trend # Volatility as a percentage of the trend
stock_prices = trend + volatility

# Ajuster un modèle de régression polynomiale
X = years.reshape(-1, 1)
y = stock_prices
poly = PolynomialFeatures(degree=4)
X_poly = poly.fit_transform(X)
model = LinearRegression()
model.fit(X_poly, y)

# Prédire les prix des actions entre 2024 et 2034
future_years = np.arange(2024, 2035)
future_X = future_years.reshape(-1, 1)
future_X_poly = poly.transform(future_X)
predicted_prices = model.predict(future_X_poly)

# Combiner les données historiques et prévisionnelles pour le tracé
all_years = np.concatenate((years, future_years))
all_prices = np.concatenate((stock_prices, predicted_prices))

# Tracer les données du cours de l'action et les prédictions
plt.figure(figsize=(15, 8))
plt.plot(years, stock_prices, label='Historical Stock Prices (1970-2024)')
plt.plot(future_years, predicted_prices, label='Predicted Stock Prices (2024-2034)', linestyle='--')
plt.title('Synthetic Stock Price Data and Predictions')
plt.xlabel('Year')
plt.ylabel('Stock Price')
plt.legend()
plt.grid(True)
plt.show()

Résultats

Points importants

Les modèles de prévision des séries temporelles ne sont qu'une méthode d'analyse parmi d'autres. Ils donnent des probabilités, mais pas de garanties absolues.
Il est important d'effectuer des tests rétrospectifs sur des données historiques avant d'utiliser un modèle dans le monde réel. Cela n'indique pas nécessairement les performances futures, mais il faut toujours connaître les antécédents d'un modèle.
Les marchés sont influencés par de nombreux facteurs, dont certains sont difficiles à quantifier - l'analyse des séries chronologiques n'est qu'une forme d'analyse parmi d'autres.

#1 05-04-2024 16:49:37

Modèles de prévision des séries temporelles en trading

Moyennes mobiles (MA)

Moyenne mobile intégrée autorégressive (ARIMA)

Lissage exponentiel

Hétéroscédasticité conditionnelle autorégressive généralisée (GARCH)

Réseaux neuronaux récurrents (RNN) et mémoire à long terme (LSTM)

Autorégression vectorielle (VAR) et modèle vectoriel de correction d'erreur (MVCE)

Modèles de commutation de Markov

Analyse par ondelettes

Décomposition saisonnière des séries temporelles (STL)

Prophète

Réseaux neuronaux et apprentissage automatique

Applications dans le domaine du trading

Considérations

Améliorer les modèles de séries temporelles

Amélioration des séries temporelles

Exemple de codage n° 1 - Série temporelle LSTM sur des données cycliques

Exemple de codage n° 2 - LTSM pour les prévisions de cours des actions

Points importants