Une introduction douce à la méthode Box-Jenkins pour la prévision de séries chronologiques
Le modèle de moyenne mobile intégrée autorégressive, ou ARIMA en abrégé, est un modèle statistique standard pour la prévision et l'analyse de séries chronologiques.
Parallèlement à son développement, les auteurs Box et Jenkins suggèrent également un processus d'identification, d'estimation et de vérification des modèles pour un ensemble de données de séries chronologiques spécifique. Ce processus est désormais appelé méthode Box-Jenkins.
Dans cet article, vous découvrirez la méthode Box-Jenkins et des conseils pour l'utiliser sur votre problème de prévision de séries chronologiques.
Concrètement, vous apprendrez :
- À propos du processus ARIMA et du fonctionnement des 3 étapes de la méthode Box-Jenkins.
- Heuristiques de bonnes pratiques pour sélectionner la configuration des modèles q, d et p pour un modèle ARIMA.
- Évaluation des modèles en recherchant le surajustement et les erreurs résiduelles en tant que processus de diagnostic.
Démarrez votre projet avec mon nouveau livre Time Series Forecasting With Python, comprenant des tutoriels étape par étape et les fichiers code source Python pour tous les exemples.
Commençons.
Modèle de moyenne mobile intégrée autorégressive
Un modèle ARIMA est une classe de modèle statistique permettant d'analyser et de prévoir des données de séries chronologiques.
ARIMA est un acronyme qui signifie AutoRegressive Iintegrated Moving A moyenne. Il s'agit d'une généralisation de la moyenne mobile autorégressive plus simple et ajoute la notion d'intégration.
Cet acronyme est descriptif et capture les aspects clés du modèle lui-même. En bref, ce sont :
- AR : Autorégression. Modèle qui utilise la relation de dépendance entre une observation et un certain nombre d'observations décalées.
- Je : Intégré. L'utilisation de la différenciation des observations brutes (c'est-à-dire soustraire une observation d'une observation au pas de temps précédent) afin de rendre la série chronologique stationnaire.
- MA : Moyenne mobile. Un modèle qui utilise la dépendance entre une observation et les erreurs résiduelles d'un modèle de moyenne mobile appliqué aux observations décalées.
Chacun de ces composants est explicitement spécifié dans le modèle en tant que paramètre.
Une notation standard est utilisée de ARIMA(p,d,q) où les paramètres sont remplacés par des valeurs entières pour indiquer rapidement le modèle ARIMA spécifique utilisé.
Les paramètres du modèle ARIMA sont définis comme suit :
- p : nombre d'observations de décalage incluses dans le modèle, également appelé ordre de décalage.
- d : nombre de fois où les observations brutes sont différenciées, également appelé degré de différenciation.
- q : taille de la fenêtre de moyenne mobile, également appelée ordre de la moyenne mobile.
Méthode Box-Jenkins
La méthode Box-Jenkins a été proposée par George Box et Gwilym Jenkins dans leur manuel phare de 1970, Time Series Analysis: Forecasting and Control.
L'approche part de l'hypothèse que le processus qui a généré la série chronologique peut être approximé à l'aide d'un modèle ARMA s'il est stationnaire ou d'un modèle ARIMA s'il est non stationnaire.
La 5e édition du manuel de 2016 (deuxième partie, page 177) fait référence au processus comme à la construction d'un modèle stochastique et qu'il s'agit d'une approche itérative qui comprend les 3 étapes suivantes :
- Identification. Utilisez les données et toutes les informations associées pour vous aider à sélectionner une sous-classe de modèle qui résume le mieux les données.
- Estimation. Utilisez les données pour entraîner les paramètres du modèle (c'est-à-dire les coefficients).
- Vérification du diagnostic. Évaluez le modèle ajusté dans le contexte des données disponibles et vérifiez les domaines dans lesquels le modèle peut être amélioré.
Il s'agit d'un processus itératif, de sorte qu'à mesure que de nouvelles informations sont obtenues au cours du diagnostic, vous pouvez revenir à l'étape 1 et les intégrer dans de nouvelles classes de modèles.
Examinons ces étapes plus en détail.
1. Identification
L’étape d’identification se décompose en :
- Évaluez si la série chronologique est stationnaire et, dans le cas contraire, combien de différences sont nécessaires pour la rendre stationnaire.
- Identifiez les paramètres d'un modèle ARMA pour les données.
1.1 Différence
Voici quelques conseils lors de l’identification.
- Tests de racine unitaire. Utilisez des tests statistiques de racine unitaire sur la série chronologique pour déterminer si elle est stationnaire ou non. Répétez après chaque tour de différenciation.
- Évitez les différences excessives. Différencier les séries temporelles plus que nécessaire peut entraîner l’ajout d’une corrélation série supplémentaire et d’une complexité supplémentaire.
1.2 Configuration d'AR et MA
Deux tracés de diagnostic peuvent être utilisés pour aider à choisir les paramètres p et q de l'ARMA ou de l'ARIMA. Ils sont:
- Fonction d'autocorrélation (ACF). Le graphique résume la corrélation d’une observation avec les valeurs de décalage. L'axe des x montre le décalage et l'axe des y montre le coefficient de corrélation entre -1 et 1 pour une corrélation négative et positive.
- Fonction d'autocorrélation partielle (PACF). Le graphique résume les corrélations pour une observation avec des valeurs de décalage qui ne sont pas prises en compte par les observations décalées antérieures.
Les deux graphiques sont dessinés sous forme de diagrammes à barres montrant les intervalles de confiance à 95 % et 99 % sous forme de lignes horizontales. Les barres qui traversent ces intervalles de confiance sont donc plus significatives et méritent d’être notées.
Voici quelques modèles utiles que vous pouvez observer sur ces tracés :
- Le modèle est AR si l'ACF s'arrête après un décalage et a une coupure brutale dans le PACF après un décalage. Ce décalage est pris comme valeur pour p.
- Le modèle est MA si le PACF s'arrête après un décalage et a une coupure brutale dans l'ACF après le décalage. Cette valeur de décalage est prise comme valeur pour q.
- Le modèle est un mélange d'AR et de MA si l'ACF et le PACF s'éloignent.
2. Estimation
L'estimation implique l'utilisation de méthodes numériques pour minimiser un terme de perte ou d'erreur.
Nous n'entrerons pas dans les détails de l'estimation des paramètres du modèle car ces détails sont gérés par la bibliothèque ou l'outil choisi.
Je recommanderais de se référer à un manuel pour une compréhension plus approfondie du problème d'optimisation à résoudre par les modèles ARMA et ARIMA et les méthodes d'optimisation telles que BFGS à mémoire limitée utilisées pour le résoudre.
3. Vérification diagnostique
L'idée de la vérification diagnostique est de rechercher des preuves que le modèle n'est pas bien adapté aux données.
Deux domaines utiles pour étudier les diagnostics sont :
- Surapprentissage
- Erreurs résiduelles.
3.1 Surapprentissage
La première vérification consiste à vérifier si le modèle surajuste les données. Généralement, cela signifie que le modèle est plus complexe qu'il ne devrait l'être et capture le bruit aléatoire dans les données d'entraînement.
Il s'agit d'un problème pour la prévision de séries chronologiques, car cela a un impact négatif sur la capacité du modèle à généraliser, ce qui entraîne de mauvaises performances de prévision sur des données hors échantillon.
Une attention particulière doit être accordée aux performances dans l'échantillon et hors échantillon, ce qui nécessite la conception minutieuse d'un harnais de test robuste pour évaluer les modèles.
3.2 Erreurs résiduelles
Les résidus de prévision offrent une excellente opportunité de diagnostic.
Un examen de la distribution des erreurs peut aider à détecter les biais du modèle. Les erreurs d'un modèle idéal ressembleraient à du bruit blanc, c'est-à-dire une distribution gaussienne avec une moyenne nulle et une variance symétrique.
Pour cela, vous pouvez utiliser des tracés de densité, des histogrammes et des tracés Q-Q qui comparent la distribution des erreurs à la distribution attendue. Une distribution non gaussienne peut suggérer une opportunité de prétraitement des données. Un asymétrie dans la distribution ou une moyenne non nulle peut suggérer un biais dans les prévisions qui pourraient être correctes.
De plus, un modèle idéal ne laisserait aucune structure temporelle dans la série chronologique des résidus de prévision. Ceux-ci peuvent être vérifiés en créant des tracés ACF et PACF de la série temporelle d’erreurs résiduelles.
La présence d'une corrélation en série dans les erreurs résiduelles suggère une possibilité supplémentaire d'utiliser cette information dans le modèle.
Lectures complémentaires
La ressource définitive sur le sujet est Time Series Analysis: Forecasting and Control. Je recommanderais la 5e édition de 2016, en particulier la deuxième partie et les chapitres 6 à 10.
Vous trouverez ci-dessous quelques lectures supplémentaires qui peuvent vous aider à étoffer votre compréhension si vous souhaitez approfondir :
- Modélisation Box-Jenkins par Rob J Hyndman, 2002 [PDF].
- Méthode Box-Jenkins sur Wikipédia.
- Article 6.4.4.5. Modèles Box-Jenkins, Manuel NIST des méthodes statistiques.
Résumé
Dans cet article, vous avez découvert la méthode Box-Jenkins pour l'analyse et la prévision de séries chronologiques.
Concrètement, vous avez appris :
- À propos du modèle ARIMA et des 3 étapes de la méthode générale Box-Jenkins.
- Comment utiliser les tracés ACF et PACF pour choisir les paramètres p et q pour un modèle ARIMA.
- Comment utiliser le surajustement et les erreurs résiduelles pour diagnostiquer un modèle ARIMA adapté.
Avez-vous des questions sur la méthode Box-Jenkins ou sur cet article ?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.