Visualisation des données avec le package Caret R
Le package caret dans R est conçu pour rationaliser le processus d’apprentissage automatique appliqué.
Un élément clé de la résolution des problèmes de données consiste à comprendre les données dont vous disposez. Vous pouvez le faire très rapidement en résumant les attributs avec des visualisations de données.
Il existe de nombreux packages et fonctions permettant de résumer les données dans R et cela peut sembler écrasant. Aux fins de l'apprentissage automatique appliqué, le package caret fournit quelques outils clés qui peuvent vous donner un résumé rapide de vos données.
Dans cet article, vous découvrirez les outils de visualisation de données disponibles dans le package caret R.
Démarrez votre projet avec mon nouveau livre Machine Learning Mastery With R, comprenant des tutoriels pas à pas et les fichiers code source R pour tous les exemples.
Commençons.
Forfait Caret
Le package caret est principalement utilisé pour rationaliser la formation du modèle, estimer les performances et le réglage du modèle. Il dispose également d'un certain nombre d'outils pratiques de visualisation de données qui peuvent vous donner rapidement une idée des données avec lesquelles vous travaillez.
Dans cet article, nous allons examiner les 4 visualisations de données suivantes :
- Matrice de nuages de points : pour comparer la distribution des attributs à valeur réelle dans des diagrammes par paires.
- Tracés de densité : pour comparer la fonction de densité de probabilité des attributs.
- Box and Whisker Plots : pour résumer et épargner la répartition des attributs
Chaque exemple est autonome afin que vous puissiez le copier et le coller dans votre propre projet et l'adapter à vos besoins. Tous les exemples utiliseront l'ensemble de données sur les fleurs d'iris, fourni avec R. Cet ensemble de données de classification fournit 150 observations pour trois espèces de fleurs d'iris et leurs mesures de pétales et de sépales en centimètres.
Matrice de nuages de points
Une matrice de nuages de points montre une grille de nuages de points où chaque attribut est tracé par rapport à tous les autres attributs. Il peut être lu par colonne ou par ligne, et chaque tracé apparaît deux fois, ce qui vous permet d'envisager les relations spatiales sous deux perspectives.
Une amélioration du simple tracé des nuages de points consiste à inclure davantage d'informations sur les classes. Cela se fait généralement en colorant les points de chaque nuage de points en fonction de leur valeur de classe.
L'exemple ci-dessous montre une matrice de nuages de points pour l'ensemble de données iris, avec des nuages de points par paire pour les quatre attributs et des points dans les nuages de points colorés par l'attribut de classe.
Matrice de nuages de points dans le package caret r :
# load the library
library(caret)
# load the data
data(iris)
# pair-wise plots of all 4 attributes, dots colored by class
featurePlot(x=iris[,1:4], y=iris[,5], plot="pairs", auto.key=list(columns=3))
Tracés de densité
Les tracés d'estimation de la densité (tracés de densité en abrégé) résument la distribution des données. Comme un histogramme, la relation entre les valeurs d'attribut et le nombre d'observations est résumée, mais plutôt qu'une fréquence, la relation est résumée sous la forme d'une fonction de densité de probabilité continue (PDF). C'est la probabilité qu'une observation donnée ait une valeur donnée.
Les tracés de densité peuvent encore être améliorés en séparant chaque attribut par sa valeur de classe pour l'observation. Cela peut être utile pour comprendre la relation entre un attribut unique et les valeurs de classe et mettre en évidence des structures utiles telles que la séparabilité linéaire des valeurs d'attribut en classes.
L'exemple ci-dessous montre des tracés de densité pour l'ensemble de données d'iris, montrant des fichiers PDF expliquant la façon dont chaque attribut est lié à chaque valeur de classe.
Tracés de densité avec le package caret r :
# load the library
library(caret)
# load the data
data(iris)
# density plots for each attribute by class value
featurePlot(x=iris[,1:4], y=iris[,5], plot="density", scales=list(x=list(relation="free"), y=list(relation="free")), auto.key=list(columns=3))
Diagrammes en boîte et en moustaches
Les diagrammes en boîte et moustaches (ou diagrammes en boîte en abrégé) résument la distribution d'un attribut donné en affichant une boîte pour les 25e et 75e centiles, une ligne dans la boîte pour le 50e centile (médiane) et un point pour la moyenne. Les moustaches affichent 1,5*la hauteur de la boîte (appelée plage inter-quartile) qui indique la plage attendue des données et toute donnée au-delà de ces moustaches est supposée être une valeur aberrante et marquée d'un point.
Encore une fois, chaque attribut peut être résumé en termes de valeur de classe observée, vous donnant une idée de la relation entre les valeurs d'attribut et les valeurs de classe, un peu comme les tracés de densité.
L'exemple ci-dessous montre des diagrammes en boîte et en moustaches pour l'ensemble de données d'iris, montrant une boîte distincte pour chaque valeur de classe pour un attribut donné.
Boîtes à moustaches dans le curseur r :
# load the library
library(caret)
# load the data
data(iris)
# box and whisker plots for each attribute by class value
featurePlot(x=iris[,1:4], y=iris[,5], plot="box", scales=list(x=list(relation="free"), y=list(relation="free")), auto.key=list(columns=3))
Résumé
Dans cet article, vous avez découvert trois visualisations de données rapides utilisant le package caret R qui peuvent vous aider à comprendre votre ensemble de données de classification.
Chaque exemple est autonome, prêt à être copié et collé dans votre propre projet et à adapter à votre problème.