Données, apprentissage et modélisation
Il existe des concepts clés dans l’apprentissage automatique qui jettent les bases de la compréhension du domaine.
Dans cet article, vous apprendrez la nomenclature (termes standard) utilisée pour décrire les données et les ensembles de données.
Vous apprendrez également les concepts et les termes utilisés pour décrire l'apprentissage et la modélisation à partir de données qui vous fourniront une intuition précieuse pour votre voyage dans le domaine de l'apprentissage automatique.
Données
Les méthodes d’apprentissage automatique apprennent à partir d’exemples. Il est important de bien comprendre les données d’entrée et les différentes terminologies utilisées pour décrire les données. Dans cette section, vous apprendrez la terminologie utilisée dans l'apprentissage automatique pour faire référence aux données.
Quand je pense aux données, je pense aux lignes et aux colonnes, comme un tableau de base de données ou une feuille de calcul Excel. Il s’agit d’une structure traditionnelle pour les données et c’est ce qui est courant dans le domaine de l’apprentissage automatique. Les autres données telles que les images, les vidéos et le texte, dites données non structurées, ne sont pas prises en compte pour le moment.
Instance : une seule ligne de données est appelée une instance. C'est une observation du domaine.
Fonctionnalité : une seule colonne de données est appelée une fonctionnalité. C'est un composant d'une observation et est également appelé attribut d'une instance de données. Certaines caractéristiques peuvent être des entrées dans un modèle (les prédicteurs) et d'autres peuvent être des sorties ou des caractéristiques à prédire.
Type de données : les entités ont un type de données. Ils peuvent être réels ou à valeur entière ou avoir une valeur catégorielle ou ordinale. Vous pouvez avoir des chaînes, des dates, des heures et des types plus complexes, mais ils sont généralement réduits à des valeurs réelles ou catégorielles lorsque vous travaillez avec des méthodes traditionnelles d'apprentissage automatique.
Ensembles de données : une collection d'instances est un ensemble de données et lorsque nous travaillons avec des méthodes d'apprentissage automatique, nous avons généralement besoin de quelques ensembles de données à des fins différentes.
Ensemble de données d'entraînement : un ensemble de données que nous introduisons dans notre algorithme d'apprentissage automatique pour entraîner notre modèle.
Ensemble de données de test : un ensemble de données que nous utilisons pour valider l'exactitude de notre modèle, mais qui n'est pas utilisé pour entraîner le modèle. On peut l'appeler l'ensemble de données de validation.
Nous devrons peut-être collecter des instances pour former nos ensembles de données ou nous pouvons recevoir un ensemble de données fini que nous devons diviser en sous-ensembles de données.
Apprentissage
L’apprentissage automatique concerne en effet l’apprentissage automatisé avec des algorithmes.
Dans cette section, nous examinerons quelques concepts de haut niveau sur l'apprentissage.
Induction : les algorithmes d'apprentissage automatique apprennent via un processus appelé induction ou apprentissage inductif. L'induction est un processus de raisonnement qui fait des généralisations (un modèle) à partir d'informations spécifiques (données d'entraînement).
Généralisation : la généralisation est nécessaire car le modèle préparé par un algorithme d'apprentissage automatique doit faire des prédictions ou des décisions basées sur des instances de données spécifiques qui n'ont pas été vues lors de l'entraînement.
Sur-apprentissage : lorsqu'un modèle apprend les données d'entraînement de trop près et ne généralise pas, on parle de surapprentissage. Le résultat est de mauvaises performances sur les données autres que l’ensemble de données d’entraînement. Ceci est également appelé surajustement.
Sous-apprentissage : lorsqu'un modèle n'a pas appris suffisamment de structure à partir de la base de données parce que le processus d'apprentissage a pris fin prématurément, on parle de sous-apprentissage. Le résultat est une bonne généralisation mais de mauvaises performances sur toutes les données, y compris l'ensemble de données d'entraînement. Ceci est également appelé sous-ajustement.
Apprentissage en ligne : l'apprentissage en ligne consiste à mettre à jour une méthode avec des instances de données du domaine dès qu'elles deviennent disponibles. L'apprentissage en ligne nécessite des méthodes robustes aux données bruitées, mais peuvent produire des modèles plus adaptés à l'état actuel du domaine.
Apprentissage hors ligne : l'apprentissage hors ligne consiste à créer une méthode sur des données pré-préparées et à l'utiliser de manière opérationnelle sur des données non observées. Le processus de formation peut être contrôlé et ajusté avec soin car la portée des données de formation est connue. Le modèle n'est pas mis à jour une fois préparé et les performances peuvent diminuer si le domaine change.
Apprentissage supervisé : il s'agit d'un processus d'apprentissage permettant de généraliser sur des problèmes pour lesquels une prédiction est requise. Un « processus d'enseignement » compare les prédictions du modèle aux réponses connues et apporte des corrections au modèle.
Apprentissage non supervisé : il s'agit d'un processus d'apprentissage permettant de généraliser la structure des données où aucune prédiction n'est requise. Les structures naturelles sont identifiées et exploitées pour relier les instances les unes aux autres.
Nous avons déjà abordé l'apprentissage supervisé et non supervisé dans l'article sur les algorithmes d'apprentissage automatique. Ces termes peuvent être utiles pour classer les algorithmes selon leur comportement.
Modélisation
L’artefact créé par un processus d’apprentissage automatique pourrait être considéré comme un programme à part entière.
Sélection du modèle : nous pouvons considérer le processus de configuration et de formation du modèle comme un processus de sélection de modèle. À chaque itération, nous disposons d'un nouveau modèle que nous pouvons choisir d'utiliser ou de modifier. Même le choix de l’algorithme d’apprentissage automatique fait partie de ce processus de sélection de modèle. Parmi tous les modèles possibles qui existent pour un problème, un algorithme donné et une configuration d'algorithme sur l'ensemble de données d'entraînement choisi fourniront un modèle finalement sélectionné.
Biais inductif : le biais correspond aux limites imposées au modèle sélectionné. Tous les modèles sont biaisés, ce qui introduit une erreur dans le modèle, et par définition tous les modèles comportent des erreurs (ce sont des généralisations à partir d'observations). Les biais sont introduits par les généralisations faites dans le modèle, y compris la configuration du modèle et la sélection de l'algorithme pour générer le modèle. Une méthode d'apprentissage automatique peut créer un modèle avec un biais faible ou élevé et des tactiques peuvent être utilisées pour réduire le biais d'un modèle fortement biaisé.
Variance du modèle : la variance correspond à la sensibilité du modèle aux données sur lesquelles il a été formé. Une méthode d'apprentissage automatique peut avoir une variance élevée ou faible lors de la création d'un modèle sur un ensemble de données. Une tactique pour réduire la variance d'un modèle consiste à l'exécuter plusieurs fois sur un ensemble de données avec des conditions initiales différentes et à prendre la précision moyenne comme performance du modèle.
Compromis biais-variance : la sélection du modèle peut être considérée comme un compromis entre le biais et la variance. Un modèle à faible biais aura une variance élevée et devra être formé pendant une longue période ou plusieurs fois pour obtenir un modèle utilisable. Un modèle à biais élevé aura une faible variance et s'entraînera rapidement, mais souffrira de performances médiocres et limitées.
Ressources
Vous trouverez ci-dessous quelques ressources si vous souhaitez approfondir.
- Tom Mitchell, La nécessité de préjugés dans les généralisations d'apprentissage, 1980
- Comprendre le compromis biais-variance
Cet article fournit un glossaire utile de termes auquel vous pouvez vous référer à tout moment pour une définition claire.
Y a-t-il des termes manquants ? Avez-vous une description plus claire de l'un des termes répertoriés ? Laissez un commentaire et faites-le-nous savoir.