Ensembles de données d'apprentissage automatique standard à pratiquer dans Weka
C'est une bonne idée de disposer de petits ensembles de données bien compris lorsque l'on se lance dans l'apprentissage automatique et que l'on apprend un nouvel outil.
L'atelier d'apprentissage automatique Weka fournit un répertoire de petits ensembles de données bien compris dans le répertoire installé.
Dans cet article, vous découvrirez certains de ces petits ensembles de données bien compris distribués avec Weka, leurs détails et où en savoir plus à leur sujet.
Nous nous concentrerons sur une poignée d’ensembles de données de différents types. Après avoir lu cet article, vous saurez :
- Où se trouvent les exemples d’ensembles de données ou où les télécharger à nouveau si vous en avez besoin.
- Ensembles de données standards spécifiques que vous pouvez utiliser pour explorer différents aspects des modèles prédictifs de classification et de régression.
- Où trouver plus d’informations sur des ensembles de données spécifiques et des résultats de pointe.
Démarrez votre projet avec mon nouveau livre Machine Learning Mastery With Weka, comprenant des tutoriels étape par étape et des captures d'écran claires pour tous les exemples.
Commençons.
Ensembles de données Weka standards
Une installation de l'atelier d'apprentissage automatique open source Weka comprend un répertoire data/ rempli de problèmes d'apprentissage automatique standard.
Ceci est très utile lorsque vous débutez dans le machine learning ou que vous apprenez à démarrer avec la plateforme Weka. Il fournit des ensembles de données d'apprentissage automatique standard pour les problèmes courants de classification et de régression. Par exemple, vous trouverez ci-dessous un instantané de ce répertoire :
Tous les ensembles de données sont au format de fichier ARFF natif de Weka et peuvent être chargés directement dans Weka, ce qui signifie que vous pouvez commencer immédiatement à développer des modèles de pratique.
Il existe certaines distributions spéciales de Weka qui peuvent ne pas inclure le répertoire data/. Si vous avez choisi d'installer l'une de ces distributions, vous pouvez télécharger la distribution .zip de Weka, la décompresser et copier le répertoire data/ dans un endroit où vous pourrez y accéder facilement depuis weka.
Il existe de nombreux ensembles de données avec lesquels jouer dans le répertoire data/. Dans les sections suivantes, j'en soulignerai quelques-uns sur lesquels vous pouvez vous concentrer pour vous entraîner et étudier les problèmes de modélisation prédictive.
Ensembles de données de classification binaire
La classification binaire est celle où la variable de sortie à prédire est nominale et composée de deux classes.
Il s’agit peut-être du type de problème de modélisation prédictive le mieux étudié et du type de problème par lequel il est bon de commencer.
Il existe trois problèmes de classification binaire standard dans le répertoire data/ sur lesquels vous pouvez vous concentrer :
- Début du diabète chez les Indiens Pima : (diabetes.arff) Chaque instance représente les détails médicaux d'un patient et la tâche consiste à prédire si le patient aura un diabète dans le délai imparti. les cinq prochaines années. Il existe 8 variables d'entrée numériques, chacune ayant des échelles variables. Vous pouvez en savoir plus sur cet ensemble de données. Les meilleurs résultats sont de l’ordre de 77 % de précision.
- Cancer du sein : (breast-cancer.arff) Chaque instance représente des détails médicaux sur des patientes et des échantillons de leur tissu tumoral. La tâche consiste à prédire si la patiente a ou non un cancer du sein. cancer. Il y a 9 variables d'entrée, toutes nominales. Vous pouvez en savoir plus sur les ensembles de données dans le référentiel UCI Machine Learning. Les meilleurs résultats sont de l’ordre de 75 % de précision.
- Ionosphère (ionosphere.arff) Chaque instance décrit les propriétés des échos radar de l'atmosphère et la tâche consiste à prédire s'il existe ou non une structure dans l'ionosphère. Il existe 34 variables d'entrée numériques de généralement la même échelle. Vous pouvez en savoir plus sur cet ensemble de données sur le référentiel UCI Machine Learning. Les meilleurs résultats sont de l’ordre d’une précision de 98 %.
Ensembles de données de classification multi-classes
Il existe de nombreux problèmes de type classification, dans lesquels la variable de sortie comporte plus de deux classes. C’est ce qu’on appelle des problèmes de classification multi-classes.
C'est un bon type de problème à examiner après avoir acquis une certaine confiance dans la classification binaire.
Trois problèmes standards de classification multi-classes dans le répertoire data/ sur lesquels vous pouvez vous concentrer sont :
- Classification des fleurs d'iris : (iris.arff) Chaque instance décrit les mesures des fleurs d'iris et la tâche consiste à prédire à quelle espèce de 3 fleurs d'iris appartient l'observation. Il existe 4 variables d'entrée numériques avec les mêmes unités et généralement la même échelle. Vous pouvez en savoir plus sur les ensembles de données dans le référentiel UCI Machine Learning. Les meilleurs résultats sont de l’ordre d’une précision de 96 %.
- Grande base de données sur le soja : (soybean.arff) Chaque instance décrit les propriétés d'une culture de soja et la tâche consiste à prédire laquelle des 19 maladies dont souffre la culture. Il existe 35 variables d'entrée nominales. Vous pouvez en savoir plus sur cet ensemble de données sur le référentiel UCI Machine Learning.
- Identification du verre : (glass.arff) Chaque instance décrit la composition chimique des échantillons de verre et la tâche consiste à prédire le type ou l'utilisation de la classe parmi l'une des 7 classes. . Il existe 10 attributs numériques qui décrivent les propriétés chimiques du verre et son indice de réfraction. Vous pouvez en savoir plus sur cet ensemble de données sur le référentiel UCI Machine Learning.
Ensembles de données de régression
Les problèmes de régression sont ceux où vous devez prédire un résultat à valeur réelle.
La sélection de problèmes de régression dans le répertoire data/ est restreinte. La régression est une classe importante de problèmes de modélisation prédictive. En tant que tel, je recommande de télécharger le pack complémentaire gratuit de problèmes de régression collectés à partir du référentiel UCI Machine Learning.
Il est disponible sur la page des ensembles de données de la page Web Weka et est le premier de la liste appelée :
- Un fichier jar contenant 37 problèmes de régression, obtenus à partir de diverses sources (datasets-numeric.jar)
Il s'agit d'un fichier .jar qui est un type d'archive Java compressée. Vous devriez pouvoir le décompresser avec la plupart des programmes de décompression modernes.
Si Java est installé (ce que vous faites très probablement pour utiliser Weka), vous pouvez également décompresser le fichier .jar manuellement sur la ligne de commande en utilisant la commande suivante dans le répertoire où le fichier jar a été téléchargé :
jar -xvf datasets-numeric.jar
La décompression du fichier créera un nouveau répertoire appelé numeric qui contient 37 ensembles de données de régression au format Weka natif ARFF.
Trois ensembles de données de régression dans le répertoire numeric/ sur lesquels vous pouvez vous concentrer sont :
- Ensemble de données économiques de Longley : (longley.arff) Chaque instance décrit les propriétés économiques brutes d'une nation pour une année donnée et la tâche consiste à prédire le nombre de personnes employées en tant que entier. Il existe 6 variables d'entrée numériques d'échelles variables.
- Ensemble de données sur les prix des logements à Boston : (housing.arff) Chaque instance décrit les propriétés d'une banlieue de Boston et la tâche consiste à prédire les prix des logements en milliers de dollars. Il existe 13 variables d'entrée numériques avec différentes échelles décrivant les propriétés des banlieues. Vous pouvez en savoir plus sur cet ensemble de données sur le référentiel UCI Machine Learning.
- Ensemble de données sur le sommeil chez les mammifères : (sleep.arff) Chaque instance décrit les propriétés de différents mammifères et la tâche consiste à prédire le nombre d'heures de sommeil total dont ils ont besoin en moyenne. Il existe 7 variables d'entrée numériques de différentes échelles et mesures.
Résumé
Dans cet article, vous avez découvert les ensembles de données standard d'apprentissage automatique distribués avec la plateforme d'apprentissage automatique Weka.
Concrètement, vous avez appris :
- Trois problèmes de classification binaire populaires que vous pouvez utiliser pour vous entraîner : le diabète, le cancer du sein et l'ionosphère.
- Trois problèmes de classification multiclasses populaires que vous pouvez utiliser pour vous entraîner : l'iris, le soja et le verre.
- Trois problèmes de régression populaires que vous pouvez utiliser pour vous entraîner : Longley, le logement et le sommeil.
Avez-vous des questions sur les ensembles de données d'apprentissage automatique standard dans Weka ou sur cet article ? Posez vos questions dans les commentaires et je ferai de mon mieux pour y répondre.