Améliorez la précision du modèle grâce au prétraitement des données
La préparation des données peut améliorer ou défaire la capacité prédictive de votre modèle.
Dans le chapitre 3 de leur livre Applied Predictive Modeling, Kuhn et Johnson présentent le processus de préparation des données. Ils y font référence comme l'ajout, la suppression ou la transformation de données d'ensemble de formation.
Dans cet article, vous découvrirez les étapes de prétraitement des données que vous pouvez utiliser pour améliorer la capacité prédictive de vos modèles.
Démarrez votre projet avec mon nouveau livre Data Preparation for Machine Learning, comprenant des tutoriels pas à pas et les fichiers code source Python pour tous les exemples.
Commençons.
Préparation des données
Vous devez prétraiter vos données brutes avant de modéliser votre problème. La préparation spécifique peut dépendre des données dont vous disposez et des algorithmes d’apprentissage automatique que vous souhaitez utiliser.
Parfois, le prétraitement des données peut conduire à des améliorations inattendues de la précision du modèle. Cela peut être dû au fait qu'une relation dans les données a été simplifiée ou non masquée.
La préparation des données est une étape importante et vous devez expérimenter des étapes de prétraitement des données adaptées à vos données pour voir si vous pouvez obtenir l'amélioration souhaitable de la précision du modèle.
Il existe trois types de prétraitement que vous pouvez envisager pour vos données :
- Ajoutez des attributs à vos données
- Supprimez les attributs de vos données
- Transformez les attributs de vos données
Nous aborderons chacun de ces trois types de pré-traitement et passerons en revue quelques exemples spécifiques d'opérations que vous pouvez effectuer.
Ajouter des attributs de données
Les modèles avancés peuvent extraire les relations d'attributs complexes, bien que certains modèles exigent que ces relations soient clairement énoncées. Dériver de nouveaux attributs à partir de vos données d’entraînement à inclure dans le processus de modélisation peut vous donner une amélioration des performances du modèle.
- Attributs factices : les attributs catégoriels peuvent être convertis en attributs n-binaires, où n est le nombre de catégories (ou niveaux) que possède l'attribut. Ces attributs dénormalisés ou décomposés sont appelés attributs factices ou variables factices.
- Attribut transformé : une variation transformée d'un attribut peut être ajoutée à l'ensemble de données afin de permettre à une méthode linéaire d'exploiter d'éventuelles relations linéaires et non linéaires entre les attributs. Des transformations simples comme le journal, le carré et la racine carrée peuvent être utilisées.
- Données manquantes : les attributs avec des données manquantes peuvent être imputées à l'aide d'une méthode fiable, telle que les k voisins les plus proches.
Supprimer les attributs de données
Certaines méthodes fonctionnent mal avec des attributs redondants ou en double. Vous pouvez améliorer la précision du modèle en supprimant les attributs de vos données.
- Projection : les données d'entraînement peuvent être projetées dans des espaces de dimension inférieure, tout en caractérisant les relations inhérentes aux données. Une approche populaire est l'analyse en composantes principales (ACP), dans laquelle les composantes principales trouvées par la méthode peuvent être considérées comme un ensemble réduit d'attributs d'entrée.
- Signe spatial : une projection de signe spatial des données transformera les données sur la surface d'une sphère multidimensionnelle. Les résultats peuvent être utilisés pour mettre en évidence l’existence de valeurs aberrantes qui peuvent être modifiées ou supprimées des données.
- Attributs corrélés : certains algorithmes perdent de leur importance avec l'existence d'attributs hautement corrélés. Les attributs par paires présentant une corrélation élevée peuvent être identifiés et les attributs les plus corrélés peuvent être supprimés des données.
Transformer les attributs de données
Les transformations des données d'entraînement peuvent réduire l'asymétrie des données ainsi que l'importance des valeurs aberrantes dans les données. De nombreux modèles s'attendent à ce que les données soient transformées avant que vous puissiez appliquer l'algorithme.
- Centrage : transformez les données pour qu'elles aient une moyenne de zéro et un écart type de un. C'est ce qu'on appelle généralement la standardisation des données.
- Mise à l'échelle : une transformation de mise à l'échelle standard consiste à mapper les données de l'échelle d'origine à une échelle comprise entre zéro et un. C'est ce qu'on appelle généralement la normalisation des données.
- Supprimer l'inclinaison : les données asymétriques sont des données dont la distribution est poussée d'un côté ou de l'autre (valeurs plus grandes ou plus petites) plutôt que d'être distribuée normalement. Certaines méthodes supposent des données normalement distribuées et peuvent fonctionner mieux si le biais est supprimé. Essayez de remplacer l'attribut par le journal, la racine carrée ou l'inverse des valeurs.
- Box-Cox : une transformation Box-Cox ou une famille de transformations peut être utilisée pour ajuster les données de manière fiable afin de supprimer l'asymétrie.
- Classement : les données numériques peuvent être rendues discrètes en regroupant les valeurs dans des groupes. C'est ce qu'on appelle généralement la discrétisation des données. Ce processus peut être effectué manuellement, mais il est plus fiable s'il est effectué systématiquement et automatiquement à l'aide d'une heuristique logique dans le domaine.
Résumé
Le prétraitement des données est une étape importante qui peut être nécessaire pour préparer les données brutes pour la modélisation, pour répondre aux attentes en matière de données pour des algorithmes d'apprentissage automatique spécifiques, et peut apporter des améliorations inattendues à la précision du modèle.
Dans cet article, nous avons découvert trois groupes de méthodes de prétraitement des données :
- Ajout d'attributs
- Suppression d'attributs
- Transformer les attributs
La prochaine fois que vous chercherez à améliorer la précision de votre modèle, réfléchissez aux nouvelles perspectives que vous pouvez créer sur vos données pour que vos modèles puissent les explorer et les exploiter.