16 options pour démarrer et progresser dans l'apprentissage automatique
Vous souhaitez apprendre le machine learning ou la science des données.
Vous voudrez peut-être un emploi ou l’opportunité d’obtenir un emploi dans le domaine de l’apprentissage automatique ou de la science des données. Alternativement, vous pourriez être étudiant ou occuper un poste de données et chercher à accélérer votre apprentissage dans le domaine.
Si vous pensez que vos seules options sont d’obtenir un doctorat ou de lire un manuel universitaire, détrompez-vous. Cet article est pour vous.
Vous disposez de nombreuses options en matière de formation et de matériel pédagogique. Il y en a tellement que vous devriez prendre votre temps, dresser une courte liste de quelques options et même en essayer quelques-unes avant de vous installer.
Dans cet article, vous découvrirez le grand nombre d’options qui s’offrent à vous et disposerez de suffisamment d’informations pour choisir une direction (ou deux) et franchir la prochaine étape de votre voyage.
Où vous vous situez, se préparer
Vous recherchez une formation pédagogique en machine learning ou en data science.
Vous avez peut-être des domaines spécifiques dans lesquels vous souhaitez vous améliorer ou sur lesquels vous souhaitez en savoir plus. Quels sont-ils? Arrêtez-les.
Vous pouvez avoir une préférence pour un style d’apprentissage spécifique, comme des livres de didacticiels en personne, audio, vidéo ou textuels. Quelles sont vos préférences ? Écrivez-les.
Vous avez une raison spécifique pour laquelle vous souhaitez apprendre l’apprentissage automatique ou la science des données. Il peut s'agir, comme décrit ci-dessus, d'un désir ou d'une opportunité d'emploi, d'un désir d'apprendre plus ou plus rapidement pour un rôle existant, ou d'un intérêt général et d'une opportunité. Quelle est votre seule raison ? Écrivez-le.
Notez les trois points dans un commentaire si vous le souhaitez. Vous n'êtes pas seul.
Liste restreinte des options de formation en machine learning
Ne dansons pas, voici une courte liste de vos options pour vous lancer et progresser dans le machine learning.
Diplôme universitaire
- Doctorat (recherche)
- Master (par recherche)
- Master (par cours)
- Diplôme de premier cycle
Cours en personne
- Cours de formation et ateliers
Cours en ligne
- MOOC
Livres
- Académique (manuels)
Contenu gratuit en ligne
- Académique (articles, blogs)
Vous pouvez voir que le haut de la liste est riche en options académiques supervisées et structurées et que le bas de la liste est axé sur les options d'auto-apprentissage moins structurées. Un autre axe sur lequel vous pourriez envisager des options moins stratifiées est celui de l’orientation académique versus industrielle dans les matériaux.
J'ai réfléchi un moment à ces axes, je pense qu'ils sont une aide utile. J'ai attribué des scores à chaque option le long de ces axes Supervisé à Non supervisé (auto-apprentissage) et Académique à Industriel et j'ai créé un petit nuage de points. Ce n'est pas une décomposition parfaite, le matériel peut être autodidacte, non supervisé mais toujours très structuré. Un doctorat est hautement académique, mais généralement beaucoup moins supervisé que la plupart des autres diplômes (du moins dans le système australo-britannique dans lequel j'ai étudié). La dichotomie supervisé/non supervisé ne rend pas suffisamment compte, mais c’est un point de départ.
Faites-moi savoir dans les commentaires si cela a aidé.
Nous passerons le reste de l’article à examiner chacun d’entre eux tour à tour, ce qu’ils offrent, à qui ils conviennent et des exemples spécifiques que vous pouvez suivre.
Diplôme universitaire
Un diplôme universitaire fournit une introduction très structurée, principalement académique et principalement théorique, à un sujet. Vous savez probablement ce qu'est un diplôme.
Les diplômes de premier cycle et certains programmes de maîtrise se font sous forme de cours, et les doctorats américains comportent également un élément de cours. Certains programmes de spécialisation, de maîtrise et de doctorat comportent une composante de recherche, d'autant plus que vous approfondissez votre intégration dans le système.
Les excellents sujets de cours sont hautement structurés et conçus par un expert dans le domaine pour vous offrir la meilleure introduction au sujet. Les grands programmes de recherche vous donnent un apprentissage de la méthode scientifique et des méthodes de recherche.
Les diplômes sont également chers, prennent beaucoup de temps, sont conçus pour l'étudiant moyen et enseignent des informations plus âgées, voire obsolètes.
Un diplôme peut être la bonne décision si vous disposez de beaucoup de temps, d’argent et que vous ne souhaitez pas du tout concevoir vos propres programmes d’études.
- PhD (recherche) : rejoignez un laboratoire de recherche et étudiez un sujet qui s'inscrit dans leur programme d'études global. Votre travail sera hautement académique et spécialisé et vous serez mesuré par le produit de votre travail formel sous forme d'articles. Par exemple, jetez un œil aux programmes de doctorat en apprentissage automatique à la CMU.
- Maîtrise (par recherche) : semblable à un programme de doctorat plus petit, mais vous êtes encouragé à mordre sur une partie plus petite, comme reproduire les résultats existants.
- Master (par cours) : matériel plus avancé que les cours de premier cycle et parfois lié à l'industrie. Les masters par cours vous permettent d'approfondir un sujet et vous trouverez probablement des programmes de master spécialisés dans l'apprentissage automatique et les domaines connexes. Par exemple, jetez un œil au programme de master en apprentissage automatique de la CMU, au programme de master en apprentissage automatique de l'University Collage London et au master en science des données de Berkeley.
- Diplôme de premier cycle : diplôme de base pour une vue d'ensemble et une introduction à un sujet. Il est peu probable que vous trouviez un diplôme de premier cycle en apprentissage automatique. Le plus souvent, l'apprentissage automatique est une matière ou un ensemble de matières (associées à l'intelligence artificielle) proposées dans les dernières années d'un programme de premier cycle. Par exemple, jetez un œil à la filière Machine Learning du diplôme CS à Columbia, à la mineure en apprentissage automatique à la CMU et à un diplôme en statistiques et apprentissage automatique à Princeton.
Je ne suis pas un expert des programmes d’études proposés dans le pays ou dans le monde, mais de nombreuses informations sont disponibles. Par exemple, jetez un œil à cette liste complète de programmes de master en apprentissage automatique et en science des données.
Le diplôme est le point de départ et non le point final. C’est une approche lente sur un sujet qui vous amène à un endroit où vous êtes prêt à commencer à pratiquer. C’est aussi le seul moment où l’on a le temps d’approfondir un sujet avec peu d’autres responsabilités.
Certaines personnes qui demandent conseil croient (profondément) qu’elles ne peuvent pas se lancer dans l’apprentissage automatique sans retourner à l’université pendant quelques années et étudier un diplôme officiel.
Vous n’avez pas besoin d’un diplôme pour apprendre et pratiquer l’apprentissage automatique. En fait, vous n’avez pas besoin d’un diplôme si vous souhaitez explorer la recherche en apprentissage automatique.
Cours en personne
Il existe des options qui ne sont pas aussi longues et coûteuses que les programmes d'études, mais offrent une formation en personne très structurée et sont fortement axées sur l'industrie plutôt qu'académiques.
Les options incluent des formations courtes et des bootcamps.
Cours de formation et ateliers
Vous pouvez suivre une courte formation sur un sujet spécifique d’apprentissage automatique. Le cours sera très ciblé sur une technique ou un outil spécifique.
Les entreprises de formation informatique existent depuis toujours et ont commencé à proposer des formations sur des sujets spécifiques liés à la science des données et à l’apprentissage automatique.
Il existe également de nouvelles entreprises qui ciblent uniquement ce type de formation. Par exemple, Persontyle est un exemple d'entreprise qui propose une vaste gamme de cours courts (1, 2, 3 et 5 jours) sur des cours spécifiques comme Hadoop pour les Data Scientists et Introduction à la science des données utilisant R.
Enfin, les universités peuvent proposer des cours de formation de courte durée pour l'industrie, des groupes de rencontre locaux proposent souvent des formations et les conférences universitaires organisent souvent des ateliers sur les méthodes modernes conçus pour l'industrie et les étudiants diplômés.
Camps d'entraînement
Les camps d’entraînement en science des données et en apprentissage automatique sont une approche populaire. Il s'agit de programmes de 6 à 12 semaines auxquels les professionnels participent en personne et acquièrent des compétences appliquées. Il y a souvent une journée d'embauche à la fin du programme pour mettre en relation les employeurs et les participants au cours.
Zipfian Academy est un exemple populaire qui propose un programme à temps plein de 12 semaines en science des données avec des modules, un projet de synthèse et une journée d'embauche. Les prix sont de l'ordre de 16 000 $.
Il s’agit d’un domaine populaire et il existe de nombreux concurrents :
- Camp d'amplis
- Incubateur de données
- Assemblée générale
- Science des données Insight
- Bootcamp sur la science des données
Pour un bon aperçu des programmes de bootcamp en apprentissage automatique et en science des données, consultez l'article « Programmes de bootcamp en science des données – à temps plein, à temps partiel et en ligne » par Ikechukwu Okonkwo.
Cours en ligne
L’éducation tout au long de votre vie sera ancrée dans l’auto-apprentissage et le mentorat.
Il existe de nombreux programmes d'auto-apprentissage disponibles et certains, comme les MOOC, sont également très structurés. La plupart, comme les MOOC, sont issus de matières universitaires et sont donc généralement plus axés sur le domaine académique.
Cours en ligne massivement ouverts (MOOC)
Il s’agit toujours d’une méthode très populaire pour débuter dans le machine learning, compte tenu du succès du MOOC Stanford Machine Learning qui a lancé Coursera.
Les cours durent souvent de 10 à 12 semaines, nécessitant plusieurs heures par semaine. Beaucoup sont gratuits ou proposés à petit prix. Ils sont moins axés sur l'industrie et plus académiques que les bootcamps, mais offrent une formation qui n'était accessible que dans le cadre d'un programme d'études supérieures universitaires. Ils comprennent souvent des vidéos de cours, des devoirs, des devoirs et un formulaire communautaire pour discuter du matériel avec d'autres étudiants.
Les cours se déroulent par lots, pour garantir qu'une cohorte bénéficie du soutien sous la forme de camarades de classe tout au long de son parcours dans le programme.
Les exemples populaires de Coursera incluent :
- Apprentissage automatique à Stanford
- Science des données de John Hopkins
- Apprentissage automatique UoW
Un MOOC populaire d'edX est Learning From Data.
Cours payants
Certains cours MOOC sont payants (comme le MOOC John Hopkins Data Science). Il existe également des cours payants de plus courte durée. Certains sont issus de matières universitaires (comme ces cours du MIT) et d'ateliers, tandis que d'autres sont complètement autonomes.
Udacity propose un certain nombre de cours payants, tels que :
- Introduction à la science des données, 8 semaines
- Apprentissage automatique : apprentissage supervisé, Georgia Tech, 8 semaines
- Apprentissage automatique : apprentissage par renforcement, Georgia Tech, 4 semaines
- Apprentissage automatique : apprentissage non supervisé, Georgia Tech, 4 semaines
Udemy est une autre entreprise qui propose des cours payants, j'ai déjà couvert leurs offres dans un article « Cours d'apprentissage automatique sur Udemy ». Deux faits marquants sont :
- Hilary Mason : apprentissage automatique avancé
- Hilary Mason : une introduction à l'apprentissage automatique avec les données Web
Linda propose également de nombreuses courtes vidéos sur l'apprentissage automatique et la science des données. Par exemple, consultez leur playlist intitulée "Data Science Basics" si vous avez un compte Linda.
Variations sur les MOOC
Il existe également des variantes des MOOC.
Par exemple, vous pouvez accéder gratuitement au matériel de cours des cours universitaires d'apprentissage automatique de premier cycle et des cycles supérieurs et étudier le cours vous-même. Certains proposent également des vidéos de conférences.
Voici quelques bons exemples :
- MIT 15.075 Pensée statistique et analyse de données
- Apprentissage automatique Stanford CS229
- Stanford Statistics 315a Statistiques appliquées modernes : éléments d'apprentissage statistique
- Caltech Apprendre à partir des données
Il existe également des programmes de science des données ouvertes et d'apprentissage automatique que vous pouvez étudier.
- Apprendre la science des données, par Nitin Borwankar
- Le Master Open Source Data Science, par Clare Corthell
Livres
Il existe de nombreux livres étonnants sur l’apprentissage automatique et la science des données, mais vous lisez probablement les mauvais livres. Cela peut vous faire dérailler et détruire votre motivation.
J'aime diviser les livres en trois catégories : académique, professionnel, pratique.
Livres académiques
Ce sont les manuels utilisés dans les programmes d’études supérieures et de premier cycle.
Vous ne voulez pas lire ces livres avant d’être prêt. Jusqu'à ce que vous ayez pratiqué pendant un certain temps, ayez une certaine confiance dans certains algorithmes et outils et soyez prêt à approfondir pourquoi les algorithmes fonctionnent plutôt que comment.
Les livres de Springer me viennent facilement à l’esprit, mais il existe de nombreux autres éditeurs comme The MIT Press, Cambridge University Press et bien d’autres encore.
Des exemples de bons manuels sont :
- Apprentissage automatique : l'art et la science des algorithmes qui donnent du sens aux données
- Apprentissage automatique : une perspective probabiliste
- Les éléments de l'apprentissage statistique : exploration de données, inférence et prédiction
- Reconnaissance de formes et apprentissage automatique
Les manuels sont académiques et nécessitent une discipline pour lire, prendre des notes, faire les exercices pour se plonger dans les références. Le travail repose entièrement sur vous. Il est préférable d’utiliser les manuels comme référence sur des sujets sélectionnés en cas de besoin.
Livres professionnels
Ce sont les livres que vous lisez si vous êtes un ingénieur logiciel ou un data scientist en exercice et que vous cherchez à structurer davantage votre travail ou à vous améliorer dans un domaine spécifique.
Je pense à O’Reilly en tant qu’éditeur dans ce domaine, qui s’est montré très optimiste quant aux livres de « données » sur la science des données et l’apprentissage automatique.
Certains livres professionnels populaires d’O’Reilly incluent :
- Apprentissage automatique pour les pirates
- Faire de la science des données : parler franchement depuis la ligne de front
- Exploration du Web social : exploration de données Facebook, Twitter, LinkedIn, Google+, GitHub, etc.
- Programmation de l'intelligence collective : création d'applications Web intelligentes 2.0
- Agile Data Science : créer des applications d'analyse de données avec Hadoop
- Apprentissage automatique réfléchi : une approche basée sur les tests
Sans parler des livres spécifiques à la technologie sur Hadoop, R, Python et amis.
O’Reilly propose également des livres blancs et des rapports qui semblent être des versions étendues d’articles de blog. J'en ai lu quelques-uns et ils sont couci-couça. Voici quelques exemples :
- Apprentissage automatique pratique : innovations en matière de recommandation
- Apprentissage automatique pratique : un nouveau regard sur la détection des anomalies
- Possibilités de rupture : comment le Big Data change tout
- Analyse Big Data en temps réel : architecture émergente
O'Reilly organise également une conférence sur tout ce qui concerne les données appelée Strata. Vous voyez ce que je veux dire quand je dis haussier. Les données sont les informations à l’intérieur et Tim O’Reilly a fait des « données » un point à l’ordre du jour.
Springer se lance également dans ce domaine avec deux excellents livres :
- Modélisation prédictive appliquée
- Une introduction à l'apprentissage statistique : avec des applications en R
J’adore ces deux livres parce qu’ils sont légèrement plus académiques que les livres d’O’Reilly, mais bien plus accessibles que les manuels de Springer dans le domaine.
J'ai également mis l'exploration de données : outils et techniques pratiques d'apprentissage automatique et l'apprentissage automatique en action dans ce camp.
Livres pratiques
Ce sont des livres qui sont des tutoriels et des recettes. Certains livres d’O’Reilly entrent dans ce domaine, comme leurs livres de cuisine et leurs livres de synthèse.
Je pense à Packt Publishing dans ce domaine. Les livres ne sont généralement pas aussi complets que les livres répertoriés ci-dessus, mais ils se concentrent sur la façon de faire des choses spécifiques.
Voici quelques exemples populaires :
- Apprentissage automatique avec R
- Exploration des médias sociaux avec R
- Créer des systèmes d'apprentissage automatique avec Python
- Apprentissage scikit-learn : apprentissage automatique en Python
- Création de modèles graphiques probabilistes avec Python
- Livre de recettes pratique sur la science des données
Très exploitable, axé sur l’industrie et généralement moins cher.
J'adore les livres et je lis beaucoup, jetez un oeil à certains de mes articles sur des livres pratiques :
- Livres pour l'apprentissage automatique avec R
- Livres d'apprentissage automatique Python
- 6 livres pratiques pour débuter l’apprentissage automatique
- Examen de la modélisation prédictive appliquée
Contenu en ligne gratuit
Il existe de nombreux contenus gratuits. Certaines d’entre elles sont étonnantes, et une grande partie sont des scories.
Le contenu est généralement non structuré, ou structuré au sein du contenu, mais sans grand plan cohérent qui relie le contenu entre eux. Pas de plan d'études. Vous devez construire votre propre plan d'études.
Vous pouvez utiliser ce contenu pour apprendre ce que vous voulez, quand vous le souhaitez. Les articles de blog sont généralement trop courts pour approfondir un sujet, vous devez souvent vous lancer dans un livre ou un cours pour approfondir.
Je pense au contenu gratuit en deux classes : le matériel académique tel que les articles et le matériel professionnel tel que les articles de blog et YouTube.
Matériel académique
Le matériel académique comprend des articles, des rapports techniques et des thèses. Il vous incombe d'extraire ce que vous recherchez, comme les détails d'un algorithme obscur ou des idées sur l'ingénierie des fonctionnalités pour un type de données spécifique.
Google Scholar est votre ami lorsque vous recherchez des articles.
Il existe des blogs académiques et ceux-ci entrent également dans cette catégorie.
Le blog de recherche de Google s'inscrit dans ce domaine, le blog d'Alexander Smola, le blog de Mark Reid et les universitaires qui font bouger les choses dans l'industrie comme le blog de John Langford et bien d'autres.
Matériel Professionnel
Le matériel professionnel est créé par ceux qui apprennent ou pratiquent l’apprentissage automatique. Il peut s'agir d'étudiants, de programmeurs ou de data scientists. Ils peuvent créer du matériel pour enseigner, partager ou mieux comprendre le matériel.
Les chaînes YouTube s'inscrivent également dans ce cadre et il y en a d'excellentes (et nous ne nous limitons pas aux cours universitaires)
The Mathematical Monk propose une excellente chaîne sur l'apprentissage automatique. Vous pouvez tirer de nombreux avantages des discussions enregistrées lors de conférences et de rencontres de l'industrie telles que Pycon 2014 (recherche de vidéos liées à l'apprentissage automatique). Les discussions techniques sur Google sont excellentes (encore une fois, recherchez des sujets sur l'apprentissage automatique). Vous pouvez obtenir de nombreuses nouvelles de l’industrie grâce aux vidéos d’O’Reilly Strata, comme celles de la réunion de 2014.
Outils et bibliothèques
Je sépare les outils et les bibliothèques car ils constituent un domaine important de l'enseignement de l'apprentissage automatique. Ce sont les moyens par lesquels vous faites et pratiquez.
Il existe des livres, des blogs et des vidéos sur les outils, et si vous avez de la chance, des tutoriels et de la documentation.
Un domaine important consiste à étudier à la fois le paysage des outils et des bibliothèques à votre disposition et à approfondir des exemples spécifiques.
En général, il s’agit d’une démarche entièrement industrielle plutôt qu’académique et entièrement autodidacte. Il existe très peu de cours qui vous apprennent à tirer le meilleur parti des outils et des bibliothèques.
Les outils sur lesquels je recommande souvent d'en apprendre beaucoup, en fonction de l'endroit où vous en êtes dans votre voyage, sont :
- Weka
- Scikit-learn en Python
- R.
Il existe des infrastructures Big Data à découvrir ainsi que des outils de niche pour des domaines et des techniques spécifiques.
Il existe de nombreux outils et bibliothèques disponibles et beaucoup de place pour aller plus loin et en profondeur.
Concours d'apprentissage automatique
À la limite, vous organisez des compétitions d’apprentissage automatique.
Ceux-ci nécessitent un certain niveau de compétence dans un outil, la gestion des données et l’utilisation d’un algorithme avant de pouvoir commencer, ainsi qu’une expertise de classe mondiale pour réussir.
Vous êtes seul en termes d'orientation, mais il existe une communauté et une excellente opportunité d'apprendre des algorithmes et des pratiques de pointe dans un environnement compétitif.
Les compétences que vous acquérez sont applicables dans l’industrie, mais les problèmes du monde réel exigent davantage de votre part. Ce domaine d'apprentissage ne s'adresse pas à tout le monde, mais offre beaucoup à ceux qui y conviennent.
Les concours sont souvent organisés en conjonction avec des conférences universitaires et sont désormais plus souvent organisés par des sociétés telles que Kaggle et TunedIt. La popularité récente a conduit de plus en plus d’entreprises à ouvrir leurs données à la concurrence, de sorte que l’accès à des ensembles de données industrielles variées et intéressantes est désormais monnaie courante.
Résumé
Nous avons couvert beaucoup de sujets dans cet article et vous avez découvert qu’il existe beaucoup plus d’options à votre disposition que vous ne le pensez probablement au premier abord.
Je veux voir disparaître les commentaires comme « J’ai besoin d’un diplôme » et « Il n’y a pas de bonnes ressources ». Il n'y a jamais eu autant d'options et autant de ressources disponibles pour démarrer et pratiquer l'apprentissage automatique, tant du côté académique que du côté industriel, à la fois dans un environnement hautement structuré et supervisé et en auto-apprentissage.
Qu'allez-vous étudier ? Laissez un commentaire.