Recherche de site Web

Examen de la modélisation prédictive appliquée


Le livre Applied Predictive Modeling enseigne la théorie pratique de l’apprentissage automatique avec des exemples de code dans R.

C'est un excellent livre et fortement recommandé aux praticiens de l'apprentissage automatique et aux utilisateurs de R pour l'apprentissage automatique.

Dans cet article, vous découvrirez les avantages de ce livre et comment il peut vous aider à devenir un meilleur modélisateur prédictif de machines.

À propos du livre

La modélisation prédictive appliquée est écrite par Max Kuhn et Kjell Johnson. Max Kuhn est directeur des statistiques non cliniques chez Pfizer et surtout connu comme le développeur du package caret chez R. Kjell Johnson est co-fondateur d'Arbor Analytics et officiellement directeur chez Pfizer.

Le livre possède son propre site Web dédié qui fournit certaines données et codes utilisés dans le livre, ainsi que des informations générales sur le contenu et les errata du livre.

Il est sorti en septembre 2013 et je me souviens qu'il s'est vendu très rapidement. J'ai dû attendre une deuxième impression pour obtenir mon exemplaire. La raison pour laquelle il était et est toujours si demandé est qu’il s’agit d’une référence fantastique écrite par des auteurs très compétents.

Ils font référence au processus de résolution de problèmes avec les statistiques et les algorithmes d'apprentissage automatique sous le nom de « Modélisation prédictive appliquée », d'où le titre du livre, mais vous pourriez tout aussi bien l'appeler apprentissage automatique appliqué.

L'accent est mis sur la création de modèles à partir de données du monde réel pour faire des prédictions (plutôt que de décrire le passé), et la sélection du meilleur modèle possible (le plus précis) est l'objectif primordial du processus.

Structure du livre

Le livre se décompose en 4 parties :

  • Stratégies générales : cela inclut la préparation des données et la conception du faisceau de tests tout en évitant le surapprentissage.
  • Modèles de régression : méthodes utilisées pour construire des modèles de régression, tels que des arbres linéaires, non linéaires et des arbres de décision.
  • Modèles de classification : méthodes utilisées pour construire des modèles de classification, tels que les arbres linéaires, non linéaires et de décision.
  • Autres considérations : autres sujets importants tels que l'importance des fonctionnalités, la sélection des fonctionnalités et l'amélioration des performances.

Les trois premières parties se terminent par une étude de cas concret. J'ai beaucoup apprécié ces chapitres, celui de la régression en particulier sur la prévision de la résistance à la compression des mélanges de béton. J'ai même écrit pourquoi c'était un exemple intelligent.

La structure était solide, axée sur les types de modèles et leur construction.

Un domaine qui, à mon avis, méritait une certaine attention était le processus général de modélisation prédictive appliquée aux nouveaux problèmes. Cela aurait pu être déduit des chapitres des études de cas travaillés, mais cela aurait été utile s'il avait été précisé.

Contenu du livre

Chaque chapitre se concentre sur l’essentiel du sujet. Il s’agit d’informations appliquées avec juste assez de théorie pour comprendre ce qui se passe. J'aime cela. Les auteurs ne se penchent pas sur les dérivations et le « pourquoi » des algorithmes et des méthodes, mais se concentrent sur le « comment » ils fonctionnent avec une équation par-ci ou un pseudo-code par-là.

Chaque chapitre comporte une section « Informatique » dans laquelle les modèles et méthodes expliqués dans le chapitre sont démontrés sur de petits ensembles de données, en utilisant presque toujours le package caret dans R. Cela ne me pose aucun problème. Les exemples sont brefs et suffisants pour se rapporter au contenu du chapitre. J'irais jusqu'à dire que l'utilisation du signe d'insertion est la meilleure pratique, et je soupçonne que c'est l'une des raisons pour lesquelles le livre est si populaire.

Enfin, chaque chapitre se termine par des « Exercices » qui vous encouragent à appliquer les modèles et méthodes expliqués et démontrés dans le chapitre pour répondre à certaines questions spécifiques. Je n'ai pas fait les exercices (j'ai lu le livre dans le train), mais j'apprécie qu'ils soient là et j'encourage les lecteurs à envisager de les faire.

J'ai trouvé une certaine répétition. Certains des mêmes algorithmes sont présentés dans les sections de régression et de classification et ont été présentés deux fois. J'ai aussi trouvé la présentation algorithme après algorithme parfois un peu ennuyeuse. Le contenu est excellent, mais une grande partie convient probablement mieux comme référence qu’un livre à lire de bout en bout. Cela étant dit, les chapitres des « Stratégies générales » et « Autres considérations » étaient à l'opposé, et j'encourage les praticiens sérieux à les lire et à prendre beaucoup de notes.

Il y a une introduction à R dans l'une des annexes pour ceux qui en ont besoin.

Il existe également un joli petit tableau qui résume les modèles et leurs différences, mettant en évidence le prétraitement suggéré, le nombre de paramètres et autres. Je pense que c'est très cool car cela vous incite à réfléchir plus profondément avant d'appliquer une méthode de boîte noire à vos données. Il se trouve à l'annexe A, à la page 550 (lien vers la page).

Résumé

Ce livre n'est pas destiné aux débutants, mais plutôt aux praticiens intermédiaires de l'apprentissage automatique qui cherchent à se familiariser ou à améliorer leur compréhension d'algorithmes spécifiques ou de R (ou des deux). Il est beaucoup plus accessible et appliqué que les textes frères comme The Elements of Statistical Learning.

J'ai vraiment apprécié ce livre et j'ai tout parcouru en une semaine environ de déplacements. J'ai pris beaucoup de notes, car j'ai apprécié l'approche chevronnée des sujets pratiques qui ne bénéficient pas de suffisamment de temps d'antenne (comme le surajustement, le déséquilibre des classes de sélection de fonctionnalités). J'y fais également référence comme référence maintenant, car les descriptions des algorithmes sont très bonnes.

Si vous pensez que ce livre est fait pour vous, procurez-vous-en un exemplaire (et lisez-le !). Vous ne le regretterez pas.

Articles connexes