Recherche de site Web

10 ensembles de données standard pour pratiquer l'apprentissage automatique appliqué


La clé pour devenir performant en apprentissage automatique appliqué est de s’entraîner sur de nombreux ensembles de données différents.

En effet, chaque problème est différent, nécessitant des méthodes de préparation et de modélisation des données subtilement différentes.

Dans cet article, vous découvrirez les 10 principaux ensembles de données d'apprentissage automatique standard que vous pouvez utiliser pour vous entraîner.

Allons-y.

  • Mise à jour de mars 2018 : ajout d'un lien alternatif pour télécharger les ensembles de données sur les Indiens Pima et le logement de Boston, car les originaux semblent avoir été supprimés.
  • Mise à jour de février 2019 : mise à jour mineure du RMSE par défaut attendu pour l'ensemble de données d'assurance.
  • Mise à jour d'octobre 2021 : mise à jour mineure de la description de l'ensemble de données sur les semences de blé.

Aperçu

Une approche structurée

Chaque ensemble de données est résumé de manière cohérente. Cela les rend faciles à comparer et à parcourir pour que vous puissiez pratiquer une technique de préparation de données ou une méthode de modélisation spécifique.

Les aspects que vous devez connaître sur chaque ensemble de données sont :

  1. Nom : comment faire référence à l'ensemble de données.
  2. Type de problème : indique si le problème est une régression ou une classification.
  3. Entrées et sorties : numéros et noms connus des entités d'entrée et de sortie.
  4. Performances : performances de référence à des fins de comparaison à l'aide de l'algorithme de la règle zéro, ainsi que les performances les plus connues (si elles sont connues).
  5. Échantillon : un instantané des cinq premières lignes de données brutes.
  6. Liens : où vous pouvez télécharger l'ensemble de données et en savoir plus.

Ensembles de données standards

Vous trouverez ci-dessous une liste des 10 ensembles de données que nous couvrirons.

Chaque ensemble de données est suffisamment petit pour tenir en mémoire et être examiné dans une feuille de calcul. Tous les ensembles de données sont composés de données tabulaires et d'aucune valeur (explicitement) manquante.

  1. Ensemble de données suédois sur l'assurance automobile.
  2. Ensemble de données sur la qualité du vin.
  3. Ensemble de données sur le diabète des Indiens Pima.
  4. Ensemble de données sonar.
  5. Ensemble de données sur les billets de banque.
  6. Ensemble de données sur les fleurs d'iris.
  7. Ensemble de données sur les ormeaux.
  8. Ensemble de données sur l'ionosphère.
  9. Ensemble de données sur les graines de blé.
  10. Ensemble de données sur les prix des logements à Boston.

1. Ensemble de données suédois sur l'assurance automobile

L'ensemble de données suédois sur l'assurance automobile consiste à prédire le paiement total de toutes les réclamations en milliers de couronnes suédoises, compte tenu du nombre total de réclamations.

C'est un problème de régression. Il est composé de 63 observations avec 1 variable d'entrée et une variable de sortie. Les noms des variables sont les suivants :

  1. Nombre de réclamations.
  2. Paiement total de toutes les réclamations en milliers de couronnes suédoises.

La performance de base en matière de prédiction de la valeur moyenne est un RMSE d'environ 81 000 couronnes.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

108,392.5
19,46.2
13,15.7
124,422.2
40,119.4

Vous trouverez ci-dessous un nuage de points de l’ensemble des données.

  • Télécharger
  • Plus d'informations

2. Ensemble de données sur la qualité du vin

Le Wine Quality Dataset consiste à prédire la qualité des vins blancs à une échelle donnée par les mesures chimiques de chaque vin.

Il s’agit d’un problème de classification multi-classes, mais il pourrait également être présenté comme un problème de régression. Le nombre d'observations pour chaque classe n'est pas équilibré. Il y a 4 898 observations avec 11 variables d’entrée et une variable de sortie. Les noms des variables sont les suivants :

  1. Acidité fixe.
  2. Acidité volatile.
  3. Acide citrique.
  4. Sucre résiduel.
  5. Chlorures.
  6. Dioxyde de soufre gratuit.
  7. Dioxyde de soufre total.
  8. Densité.
  9. pH.
  10. Sulfates.
  11. Alcool.
  12. Qualité (score entre 0 et 10).

La performance de base en matière de prédiction de la valeur moyenne est un RMSE d'environ 0,148 points de qualité.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

7,0.27,0.36,20.7,0.045,45,170,1.001,3,0.45,8.8,6
6.3,0.3,0.34,1.6,0.049,14,132,0.994,3.3,0.49,9.5,6
8.1,0.28,0.4,6.9,0.05,30,97,0.9951,3.26,0.44,10.1,6
7.2,0.23,0.32,8.5,0.058,47,186,0.9956,3.19,0.4,9.9,6
7.2,0.23,0.32,8.5,0.058,47,186,0.9956,3.19,0.4,9.9,6
  • Télécharger
  • Plus d'informations

3. Ensemble de données sur le diabète des Indiens Pima

L'ensemble de données sur le diabète des Indiens Pima consiste à prédire l'apparition du diabète dans les 5 ans chez les Indiens Pima, en fonction des détails médicaux.

Il s'agit d'un problème de classification binaire (2 classes). Le nombre d'observations pour chaque classe n'est pas équilibré. Il y a 768 observations avec 8 variables d'entrée et 1 variable de sortie. On pense que les valeurs manquantes sont codées avec des valeurs nulles. Les noms des variables sont les suivants :

  1. Nombre de fois enceintes.
  2. Concentration de glucose plasmatique pendant 2 heures lors d'un test oral de tolérance au glucose.
  3. Pression artérielle diastolique (mm Hg).
  4. Épaisseur du pli cutané du triceps (mm).
  5. Insuline sérique sur 2 heures (mu U/ml).
  6. Indice de masse corporelle (poids en kg/(taille en m)^2).
  7. Fonction généalogique du diabète.
  8. Âge (ans).
  9. Variable de classe (0 ou 1).

La performance de base en matière de prédiction de la classe la plus répandue est une précision de classification d'environ 65 %. Les meilleurs résultats atteignent une précision de classification d'environ 77 %.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1
  • Télécharger
  • Plus d'informations
  • Meilleurs résultats

4. Ensemble de données sonar

L'ensemble de données sonar implique la prédiction si un objet est ou non une mine ou un rocher, compte tenu de la force des échos du sonar sous différents angles.

Il s'agit d'un problème de classification binaire (2 classes). Le nombre d'observations pour chaque classe n'est pas équilibré. Il y a 208 observations avec 60 variables d'entrée et 1 variable de sortie. Les noms des variables sont les suivants :

  1. Le sonar revient sous différents angles
  2. Classe (M pour le mien et R pour le rock)

La performance de base en matière de prédiction de la classe la plus répandue est une précision de classification d'environ 53 %. Les meilleurs résultats atteignent une précision de classification d'environ 88 %.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

0.0200,0.0371,0.0428,0.0207,0.0954,0.0986,0.1539,0.1601,0.3109,0.2111,0.1609,0.1582,0.2238,0.0645,0.0660,0.2273,0.3100,0.2999,0.5078,0.4797,0.5783,0.5071,0.4328,0.5550,0.6711,0.6415,0.7104,0.8080,0.6791,0.3857,0.1307,0.2604,0.5121,0.7547,0.8537,0.8507,0.6692,0.6097,0.4943,0.2744,0.0510,0.2834,0.2825,0.4256,0.2641,0.1386,0.1051,0.1343,0.0383,0.0324,0.0232,0.0027,0.0065,0.0159,0.0072,0.0167,0.0180,0.0084,0.0090,0.0032,R
0.0453,0.0523,0.0843,0.0689,0.1183,0.2583,0.2156,0.3481,0.3337,0.2872,0.4918,0.6552,0.6919,0.7797,0.7464,0.9444,1.0000,0.8874,0.8024,0.7818,0.5212,0.4052,0.3957,0.3914,0.3250,0.3200,0.3271,0.2767,0.4423,0.2028,0.3788,0.2947,0.1984,0.2341,0.1306,0.4182,0.3835,0.1057,0.1840,0.1970,0.1674,0.0583,0.1401,0.1628,0.0621,0.0203,0.0530,0.0742,0.0409,0.0061,0.0125,0.0084,0.0089,0.0048,0.0094,0.0191,0.0140,0.0049,0.0052,0.0044,R
0.0262,0.0582,0.1099,0.1083,0.0974,0.2280,0.2431,0.3771,0.5598,0.6194,0.6333,0.7060,0.5544,0.5320,0.6479,0.6931,0.6759,0.7551,0.8929,0.8619,0.7974,0.6737,0.4293,0.3648,0.5331,0.2413,0.5070,0.8533,0.6036,0.8514,0.8512,0.5045,0.1862,0.2709,0.4232,0.3043,0.6116,0.6756,0.5375,0.4719,0.4647,0.2587,0.2129,0.2222,0.2111,0.0176,0.1348,0.0744,0.0130,0.0106,0.0033,0.0232,0.0166,0.0095,0.0180,0.0244,0.0316,0.0164,0.0095,0.0078,R
0.0100,0.0171,0.0623,0.0205,0.0205,0.0368,0.1098,0.1276,0.0598,0.1264,0.0881,0.1992,0.0184,0.2261,0.1729,0.2131,0.0693,0.2281,0.4060,0.3973,0.2741,0.3690,0.5556,0.4846,0.3140,0.5334,0.5256,0.2520,0.2090,0.3559,0.6260,0.7340,0.6120,0.3497,0.3953,0.3012,0.5408,0.8814,0.9857,0.9167,0.6121,0.5006,0.3210,0.3202,0.4295,0.3654,0.2655,0.1576,0.0681,0.0294,0.0241,0.0121,0.0036,0.0150,0.0085,0.0073,0.0050,0.0044,0.0040,0.0117,R
0.0762,0.0666,0.0481,0.0394,0.0590,0.0649,0.1209,0.2467,0.3564,0.4459,0.4152,0.3952,0.4256,0.4135,0.4528,0.5326,0.7306,0.6193,0.2032,0.4636,0.4148,0.4292,0.5730,0.5399,0.3161,0.2285,0.6995,1.0000,0.7262,0.4724,0.5103,0.5459,0.2881,0.0981,0.1951,0.4181,0.4604,0.3217,0.2828,0.2430,0.1979,0.2444,0.1847,0.0841,0.0692,0.0528,0.0357,0.0085,0.0230,0.0046,0.0156,0.0031,0.0054,0.0105,0.0110,0.0015,0.0072,0.0048,0.0107,0.0094,R
  • Télécharger
  • Plus d'informations
  • Meilleurs résultats

5. Ensemble de données sur les billets de banque

L'ensemble de données sur les billets de banque consiste à prédire si un billet de banque donné est authentique à partir d'un certain nombre de mesures prises à partir d'une photographie.

Il s'agit d'un problème de classification binaire (2 classes). Le nombre d'observations pour chaque classe n'est pas équilibré. Il y a 1 372 observations avec 4 variables d'entrée et 1 variable de sortie. Les noms des variables sont les suivants :

  1. Variance de l'image transformée en ondelettes (continue).
  2. Asymétrie de l'image transformée en ondelettes (continue).
  3. Aplatissement de l'image transformée en ondelettes (continue).
  4. Entropie de l'image (continue).
  5. Classe (0 pour authentique, 1 pour inauthentique).

La performance de base en matière de prédiction de la classe la plus répandue est une précision de classification d'environ 50 %.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

3.6216,8.6661,-2.8073,-0.44699,0
4.5459,8.1674,-2.4586,-1.4621,0
3.866,-2.6383,1.9242,0.10645,0
3.4566,9.5228,-4.0112,-3.5944,0
0.32924,-4.4552,4.5718,-0.9888,0
4.3684,9.6718,-3.9606,-3.1625,0
  • Télécharger
  • Plus d'informations

6. Ensemble de données sur les fleurs d'iris

L'ensemble de données sur les fleurs d'iris consiste à prédire les espèces de fleurs à partir des mesures des fleurs d'iris.

Il s'agit d'un problème de classification multi-classes. Le nombre d'observations pour chaque classe est équilibré. Il y a 150 observations avec 4 variables d'entrée et 1 variable de sortie. Les noms des variables sont les suivants :

  1. Longueur des sépales en cm.
  2. Largeur des sépales en cm.
  3. Longueur des pétales en cm.
  4. Largeur des pétales en cm.
  5. Classe (Iris Setosa, Iris Versicolor, Iris Virginica).

La performance de base en matière de prédiction de la classe la plus répandue est une précision de classification d'environ 26 %.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
  • Télécharger
  • Plus d'informations

7. Ensemble de données sur les ormeaux

L'ensemble de données sur les ormeaux consiste à prédire l'âge des ormeaux à partir de mesures objectives des individus.

Il s’agit d’un problème de classification multi-classes, mais qui peut également être présenté comme une régression. Le nombre d'observations pour chaque classe n'est pas équilibré. Il y a 4 177 observations avec 8 variables d'entrée et 1 variable de sortie. Les noms des variables sont les suivants :

  1. Sexe (M, F, I).
  2. Longueur.
  3. Diamètre.
  4. Hauteur.
  5. Poids entier.
  6. Poids écorché.
  7. Poids des viscères.
  8. Poids de la coque.
  9. Anneaux.

La performance de base en matière de prédiction de la classe la plus répandue est une précision de classification d'environ 16 %. La performance de base en matière de prédiction de la valeur moyenne est un RMSE d'environ 3,2 anneaux.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7
F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9
M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10
I,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,7
  • Télécharger
  • Plus d'informations

8. Ensemble de données sur l'ionosphère

L'ensemble de données sur l'ionosphère nécessite la prédiction de la structure de l'atmosphère à partir des échos radar ciblant les électrons libres dans l'ionosphère.

Il s'agit d'un problème de classification binaire (2 classes). Le nombre d'observations pour chaque classe n'est pas équilibré. Il y a 351 observations avec 34 variables d'entrée et 1 variable de sortie. Les noms des variables sont les suivants :

  1. 17 paires de données de retour radar.
  2. Classe (g pour le bien et b pour le mal).

La performance de base en matière de prédiction de la classe la plus répandue est une précision de classification d'environ 64 %. Les meilleurs résultats atteignent une précision de classification d'environ 94 %.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

1,0,0.99539,-0.05889,0.85243,0.02306,0.83398,-0.37708,1,0.03760,0.85243,-0.17755,0.59755,-0.44945,0.60536,-0.38223,0.84356,-0.38542,0.58212,-0.32192,0.56971,-0.29674,0.36946,-0.47357,0.56811,-0.51171,0.41078,-0.46168,0.21266,-0.34090,0.42267,-0.54487,0.18641,-0.45300,g
1,0,1,-0.18829,0.93035,-0.36156,-0.10868,-0.93597,1,-0.04549,0.50874,-0.67743,0.34432,-0.69707,-0.51685,-0.97515,0.05499,-0.62237,0.33109,-1,-0.13151,-0.45300,-0.18056,-0.35734,-0.20332,-0.26569,-0.20468,-0.18401,-0.19040,-0.11593,-0.16626,-0.06288,-0.13738,-0.02447,b
1,0,1,-0.03365,1,0.00485,1,-0.12062,0.88965,0.01198,0.73082,0.05346,0.85443,0.00827,0.54591,0.00299,0.83775,-0.13644,0.75535,-0.08540,0.70887,-0.27502,0.43385,-0.12062,0.57528,-0.40220,0.58984,-0.22145,0.43100,-0.17365,0.60436,-0.24180,0.56045,-0.38238,g
1,0,1,-0.45161,1,1,0.71216,-1,0,0,0,0,0,0,-1,0.14516,0.54094,-0.39330,-1,-0.54467,-0.69975,1,0,0,1,0.90695,0.51613,1,1,-0.20099,0.25682,1,-0.32382,1,b
1,0,1,-0.02401,0.94140,0.06531,0.92106,-0.23255,0.77152,-0.16399,0.52798,-0.20275,0.56409,-0.00712,0.34395,-0.27457,0.52940,-0.21780,0.45107,-0.17813,0.05982,-0.35575,0.02309,-0.52879,0.03286,-0.65158,0.13290,-0.53206,0.02431,-0.62197,-0.05707,-0.59573,-0.04608,-0.65697,g
  • Télécharger
  • Plus d'informations
  • Meilleurs résultats

9. Ensemble de données sur les graines de blé

L'ensemble de données sur les graines de blé implique la prédiction des espèces à partir des mesures des graines de différentes variétés de blé.

Il s'agit d'un problème de classification multiclasse (3 classes). Le nombre d'observations pour chaque classe est équilibré. Il y a 210 observations avec 7 variables d'entrée et 1 variable de sortie. Les noms des variables sont les suivants :

  1. Zone.
  2. Périmètre.
  3. Compacité
  4. Longueur du noyau.
  5. Largeur du noyau.
  6. Coefficient d'asymétrie.
  7. Longueur de la rainure du noyau.
  8. Classe (1, 2, 3).

La performance de base en matière de prédiction de la classe la plus répandue est une précision de classification d'environ 28 %.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

15.26,14.84,0.871,5.763,3.312,2.221,5.22,1
14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
14.29,14.09,0.905,5.291,3.337,2.699,4.825,1
13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1
  • Télécharger
  • Plus d'informations

10. Ensemble de données sur les prix des maisons à Boston

L'ensemble de données sur le prix des maisons de Boston implique la prévision du prix d'une maison en milliers de dollars, en fonction des détails de la maison et de son quartier.

C'est un problème de régression. Il y a 506 observations avec 13 variables d'entrée et 1 variable de sortie. Les noms des variables sont les suivants :

  1. CRIM : taux de criminalité par habitant par commune.
  2. ZN : proportion de terrains résidentiels zonés pour des lots de plus de 25 000 pi².
  3. INDUS : proportion de superficies commerciales non commerciales par ville.
  4. CHAS : variable fictive de Charles River (= 1 si le tronçon délimite la rivière ; 0 sinon).
  5. NOX : concentration d'oxydes d'azote (parties pour 10 millions).
  6. RM : nombre moyen de pièces par logement.
  7. ÂGE : proportion de logements occupés par leur propriétaire construits avant 1940.
  8. DIS : distances pondérées jusqu'à cinq centres d'emploi de Boston.
  9. RAD : indice d'accessibilité aux autoroutes radiales.
  10. TAXE : taux de taxe foncière pleine valeur par 10 000 $.
  11. PTRATIO : ratio élèves/enseignant par commune.
  12. B : 1000(Bk – 0,63)^2 où Bk est la proportion de Noirs par ville.
  13. LSTAT : % de statut inférieur de la population.
  14. MEDV : valeur médiane des maisons occupées par leur propriétaire en milliers de dollars.

La performance de base en matière de prédiction de la valeur moyenne est un RMSE d'environ 9,21 milliers de dollars.

Un échantillon des 5 premières lignes est répertorié ci-dessous.

0.00632 18.00 2.310 0 0.5380 6.5750 65.20 4.0900 1 296.0 15.30 396.90 4.98 24.00
0.02731 0.00 7.070 0 0.4690 6.4210 78.90 4.9671 2 242.0 17.80 396.90 9.14 21.60
0.02729 0.00 7.070 0 0.4690 7.1850 61.10 4.9671 2 242.0 17.80 392.83 4.03 34.70
0.03237 0.00 2.180 0 0.4580 6.9980 45.80 6.0622 3 222.0 18.70 394.63 2.94 33.40
0.06905 0.00 2.180 0 0.4580 7.1470 54.20 6.0622 3 222.0 18.70 396.90 5.33 36.20
  • Télécharger (mise à jour : télécharger à partir d'ici)
  • Plus d'informations

Résumé

Dans cet article, vous avez découvert les 10 principaux ensembles de données standard que vous pouvez utiliser pour pratiquer l'apprentissage automatique appliqué.

Voici votre prochaine étape :

  1. Choisissez un ensemble de données.
  2. Prenez votre outil préféré (comme Weka, scikit-learn ou R)
  3. Voyez à quel point vous pouvez battre les scores standards.
  4. Rapportez vos résultats dans les commentaires ci-dessous.

Articles connexes