Recherche de site Web

5 ensembles de données gratuits pour démarrer vos projets d'apprentissage automatique dès aujourd'hui


Il existe de nombreux ensembles de données gratuits en ligne qui vous aident à pratiquer et à apprendre. Ces ensembles de données vous permettent d'essayer différentes techniques d'apprentissage automatique et d'améliorer vos compétences. Vous pouvez trouver ces ensembles de données sur des plateformes telles que Kaggle et UCI Machine Learning Repository. Voici cinq ensembles de données gratuits qui peuvent vous aider à démarrer vos projets d'apprentissage automatique.

1. Ensemble de données sur l'iris

Description : l'ensemble de données Iris contient des informations sur trois types de fleurs d'iris : Setosa, Versicolor et Virginica. L'ensemble de données se compose de quatre attributs : la longueur des sépales, la largeur des sépales, la longueur des pétales et la largeur des pétales.

Cas d'utilisation :

  • Formation d'algorithmes d'apprentissage supervisé tels que les arbres de décision, les k voisins les plus proches et les machines vectorielles de support.
  • Effectuer une analyse exploratoire des données (EDA) et des visualisations telles que des nuages de points et des diagrammes de paires.
  • Pratiquer les techniques de mise à l’échelle et de sélection des fonctionnalités.

Lien : Ensemble de données Iris sur le référentiel UCI Machine Learning

2. Chiffres manuscrits du MNIST

Description : l'ensemble de données MNIST contient 70 000 images de nombres manuscrits allant de 0 à 9. Chaque image est une image en niveaux de gris d'une taille de 28 x 28 pixels.

Cas d'utilisation :

  • Formation de modèles d'apprentissage profond pour la classification des chiffres manuscrits.
  • En savoir plus sur les techniques de traitement d'images telles que la normalisation et l'augmentation d'images.
  • Comprendre comment créer des modèles capables de classer les images dans différentes catégories.

Lien : Jeu de données MNIST sur le site de Yann LeCun
 

3. Ensemble de données sur le logement à Boston

Description : cet ensemble de données contient des informations sur les prix des logements dans la banlieue de Boston. Il comprend des fonctionnalités telles que le taux de criminalité, l’âge de la propriété et le nombre de pièces.

Cas d'utilisation :

  • Prédire les prix des logements à l’aide de la régression linéaire ou d’autres modèles de régression.
  • Effectuer l'ingénierie des fonctionnalités, comme la transformation de variables ou la gestion de la multicolinéarité.
  • Pratiquer la validation croisée et le réglage des hyperparamètres pour les tâches de régression.

Lien : Ensemble de données sur le logement de Boston sur Kaggle

4. Ensemble de données sur la qualité du vin

Description : cet ensemble de données contient des informations sur les vins rouges et blancs. Il comprend leurs propriétés chimiques et leurs évaluations de qualité. Il contient des caractéristiques telles que l’acidité, la teneur en sucre et les niveaux d’alcool.

Cas d'utilisation :

  • Détermination de la qualité de l'utilisation de ses caractéristiques chimiques.
  • Entraîner des modèles de classification et de régression, en fonction de la nature de la prédiction.
  • Trouver des méthodes pour la mise à l'échelle des fonctionnalités et la réduction de la dimensionnalité.

Lien : Ensemble de données sur la qualité du vin dans le référentiel UCI Machine Learning

5. Ensemble de données Titanic

Description : l'ensemble de données Titanic comprend des détails sur les passagers du Titanic, tels que leur âge, leur sexe, leur classe et s'ils ont survécu à la catastrophe.

Cas d'utilisation :

  • Prédire si un passager a survécu au désastre du Titanic à l'aide d'algorithmes de classification tels que la régression logistique ou les forêts aléatoires.
  • Pratiquer des tâches de prétraitement des données telles que l'encodage de variables catégorielles et la normalisation des caractéristiques numériques.
  • Gérer les données manquantes et effectuer l'ingénierie des fonctionnalités sur des données réelles.

Lien : Ensemble de données Titanic sur Kaggle
 

Conclusion

En conclusion, ces cinq ensembles de données gratuits sont parfaits pour démarrer vos projets de machine learning. Ils couvrent plusieurs tâches, de la classification à la régression. Profitez de ces ensembles de données pour explorer les techniques d’apprentissage automatique et constituer votre portefeuille.

Articles connexes