Package Caret R pour la modélisation prédictive appliquée
La plateforme R pour le calcul statistique est peut-être la plateforme d’apprentissage automatique appliqué la plus populaire et la plus puissante.
Le package caret dans R a été appelé « l’avantage concurrentiel de R ». Il rend le processus de formation, de réglage et d’évaluation des modèles d’apprentissage automatique dans R cohérent, simple et même amusant.
Dans cet article, vous découvrirez le package caret dans R, ses fonctionnalités clés et où aller pour en savoir plus.
Démarrez votre projet avec mon nouveau livre Machine Learning Mastery With R, comprenant des tutoriels pas à pas et les fichiers code source R pour tous les exemples.
Commençons.
Qu'est-ce que le package Caret R ?
Caret s'appuie sur une philosophie clé de l'apprentissage automatique, celle du théorème du repas gratuit. Le théorème stipule que, sans connaissance préalable du problème de prédiction, aucune méthode ne peut être considérée comme meilleure qu’une autre.
Face à ce théorème, le package caret a une position arrêtée sur la manière dont l’apprentissage automatique appliqué doit être mené. Vous ne pouvez pas savoir quel algorithme ou quels paramètres d'algorithme seront optimaux pour un problème donné, cela ne peut être connu que par expérimentation empirique. C’est le processus que le package caret a été conçu pour faciliter.
Il le fait de plusieurs manières clés :
- Création de modèles simplifiés : il fournit une interface cohérente pour entraîner un grand nombre d'algorithmes tiers les plus populaires dans R.
- Évaluer l'effet des paramètres sur les performances : il fournit des outils permettant de rechercher des combinaisons de paramètres d'algorithme par rapport à une mesure objective afin de comprendre l'effet des paramètres sur le modèle pour un problème donné.
- Choisir un modèle optimal : il fournit des outils pour évaluer et comparer les modèles sur un problème donné afin de localiser le plus approprié à l'aide de critères objectifs.
- Estimer les performances du modèle : il fournit des outils pour estimer la précision des modèles sur des données invisibles pour un problème donné.
Fonctionnalités du curseur
Le package caret possède de nombreuses fonctionnalités construites autour de la philosophie de base. Voici quelques exemples :
- Répartition des données : divisez les données en ensembles de données d'entraînement et de test.
- Prétraitement des données : préparez les données pour la modélisation telle que la normalisation et la standardisation.
- Sélection des fonctionnalités : méthodes permettant de sélectionner uniquement les attributs requis pour effectuer des prédictions efficaces.
- Importance des fonctionnalités : évaluez la pertinence de chaque attribut de l'ensemble de données sur l'attribut prédit.
- Optimisation du modèle : évaluez l'effet des paramètres de l'algorithme sur les performances et localisez une configuration optimale.
- Traitement parallèle : ajustez et estimez les performances du modèle à l'aide du calcul parallèle, tel que plusieurs cœurs sur un poste de travail, pour améliorer les performances.
- Visualisation : mieux comprendre les données d'entraînement, la comparaison des modèles et l'effet des paramètres sur le modèle grâce à des visualisations personnalisées.
D'où vient Caret
Caret est un package en R créé et maintenu par Max Kuhn de Pfizer. Le développement a commencé en 2005 et a ensuite été rendu open source et téléchargé sur CRAN.
Caret est en fait un acronyme qui signifie Classification And REgression Training (CARET).
Il a été initialement développé pour répondre à la nécessité d’exécuter plusieurs algorithmes différents pour un problème donné. Les packages R sont créés par des tiers et peuvent varier en termes de paramètres et de syntaxe lors de la formation et de la génération de prédictions. Les premières versions du package caret ont été conçues pour unifier la formation et la prédiction des modèles.
Il s'est ensuite étendu pour normaliser davantage les tâches courantes connexes telles que le réglage des paramètres et la détermination de l'importance des variables.
Entretien avec Max Kuhn
Max Kuhn est interviewé par DataScience.LA lors de la conférence useR. Dans l'interview, Max parle du développement de caret et de son utilisation de R. Il parle de l'importance de tester plusieurs modèles sur un problème donné et de la difficulté de travailler avec plusieurs packages différents en même temps, de l'impulsion nécessaire à la création du package. .
Démonstration de Caret par Max Kuhn
Max Kuhn démontre le caret et parle de son développement et de ses fonctionnalités dans cette présentation. Il revient sur le théorème du « repas gratuit » et sur la nécessité de tester plusieurs modèles. Le cœur de la présentation est un exemple de modèle sur certaines données de désabonnement. Il aborde l’estimation des performances des modèles, le réglage des algorithmes et bien plus encore.
Ressources Caret
Si vous êtes intéressé par plus d'informations sur le package caret, consultez certains des liens ci-dessous.
- Page d'accueil du package Caret
- Package Caret sur CRAN
- Manuel du package Caret (PDF, toutes les fonctions)
- Une brève introduction au package caret (vignette PDF)
- Création de modèles prédictifs dans R à l'aide du package caret (document PDF)
- Projet open source sur GitHub (code source)