Screencasts de science des données : une revue de l'origami des données
Data Origami est un nouveau site Web de Cameron Davidson-Pilon qui propose des screencasts sur la science des données. C'est une bonne idée et un site sympa.
Cameron a eu la gentillesse de me donner accès au site afin que je puisse le consulter. J'ai regardé toutes les vidéos possibles et rédigé toutes mes notes, et dans cet article, vous aurez un aperçu du nouveau site de Cameron, Data Origami.
Origami de données
Data Origami est une idée simple. Il fournit des screencasts sur des sujets pertinents pour un data scientist.
Chaque screencast dure de 9 à 13 minutes sur un sujet précis et précis. Les screencasts utilisent tous Python et sont présentés dans un cahier IPython comprenant du texte, des équations mathématiques, du code et des tracés. Les blocs-notes sont disponibles ainsi que des téléchargements des vidéos elles-mêmes pour ordinateur et mobile, ainsi que des liens vers d'autres ressources et ensembles de données pertinents.
Au moment de la rédaction, il s'agit d'un service payant à 9 $par mois pour accéder à tous les screencasts, bien qu'un screencast soit disponible gratuitement.
Les vidéos supposent que vous savez programmer (Python) et que vous connaissez les statistiques.
Le site est propre et dégage une atmosphère Heroku (c'est peut-être le violet et les dessins au trait). Les vidéos sont volumineuses et de bonne qualité et les écrans ne sont pas encombrés de distractions.
Qui est Cameron ?
Si vous recherchez des indicateurs d’autorité dans le domaine, Cameron les a.
Cam travaille sur l'analyse de données chez Shopify. Il traite des données pour une grande entreprise, de 9h à 17h.
Cameron est l'auteur du livre technique auto-publié Bayesian Methods for Hackers qui enseigne une introduction au bayésien à l'aide de Python. Tout cela est disponible sur GitHub (et nbviewer IPython viewer) et a été popularisé à plusieurs reprises sur des sites d'actualités techniques tels que Hacker News et Reddit (plusieurs fois, preuve sociale++).
Enfin, Cameron est l'auteur de lifelines, un package Python qui prend en charge l'analyse de survie.
Les sujets des méthodes bayésiennes et de l'analyse de survie figurent dans ses screencasts sur Data Origami.
Captures d'écran de la science des données
https://www.youtube.com/watch?v=Qw1XrXd4Gwc
J'ai parcouru les 7 screencasts et pris des notes. Je tiens à respecter Cam et sa ressource, voici donc juste un résumé des vidéos actuellement disponibles :
- Modèle bayésien bêta-binomial : plus mathématique que les autres, se concentre sur l'introduction de la distribution bêta et son utilisation pour modéliser les distributions postérieures.
- Introduction à l'ACP : Qu'est-ce que l'analyse en composantes principales, ce qu'elle tente de réaliser et ce que signifient les résultats.
- Visualiser la perte d’informations de PCA : une manière intelligente de démontrer cette méthode de projection réversible.
- Trier les couleurs à l'aide de PCA (le gratuit) : une manière intelligente de démontrer une application utile de PCA.
- Taux de conversion des tests A/B : une approche quantifiée pour communiquer l'incertitude dans le contexte des résultats des tests A/B. A voir absolument !
- Pourquoi devrais-je m’intéresser à l’analyse de survie ? Préparer le terrain pour l’analyse de survie.
- Estimation de la fonction de survie : utilisation de l'estimateur Kaplan Meier pour modéliser la fonction de survie pour un exemple de problème intelligent.
Notez que j'ai utilisé intelligent plusieurs fois. Ses exemples sont très bien pensés, très sympas.
MISE À JOUR : Un nouveau screencast est apparu depuis que j'ai rédigé la critique.
Revoir
Cameron connaît son affaire. Personnellement, j'ai trouvé les vidéos PCA moins intéressantes, soit parce que je connaissais le contenu, soit parce que la diffusion était moins soignée. Plonger dans l’incertitude bayésienne et l’analyse de survie était génial.
Cameron est le patron de Bayesian. Il pouvait facilement diviser son livre en morceaux de 10 minutes et je le mangerais en entier (indice, indice).
Les vidéos semblent être hébergées sur Amazon S3, mais j'ai subi un certain décalage en les regardant. Il est très possible que ce soit le moment de la journée où j'ai décidé de regarder les vidéos, mais c'était ennuyeux à ce moment-là. Ce n'est pas grave, j'aurais pu simplement les télécharger et les regarder et je suis sûr que Cam réglera ce problème à mesure qu'il grandira.
Il trouve encore son exploit en termes de format. Les vidéos les plus récentes sont beaucoup plus soignées que les premières et constituent un bon signe de ce qui est à venir. Personnellement, j’aimerais beaucoup plus de « c’est ce que nous allons faire » au début et « c’est ce que nous avons fait » à la fin. Je dois être très caféiné pour absorber une de ces vidéos dès le premier visionnage, même avec une prise de notes rapide. Que le screencast me rappelle ce que nous avons couvert serait cool.
Je suis peut-être un peu un utilisateur expérimenté. Je regarde toutes les vidéos YouTube en 2 x et je prends beaucoup de notes. Ce serait cool si le lecteur intégré avait une fonctionnalité 2x et si le compte prenait en charge la prise de notes ou les commentaires. Ce n’est pas grave, juste des fonctionnalités utilisateur avancées qui pourraient accroître le bonheur.
Une fois qu'il aura obtenu beaucoup plus de contenu, je peux imaginer des cases à cocher pour "J'ai regardé ceci" et même le regroupement de vidéos dans des flux de contenu.
Il ne semble pas y avoir de feuille de route pour le contenu pour le moment, mais simplement tout ce qui plaît à Cam. C’est bien, dans la mesure où il est passionné par tout ce qu’il partage, mais c’est mauvais au début parce que nous devons nous concentrer sur ses intérêts. On ne se tient pas la main.
Cam note qu'il en publie 2 par mois, la croissance de la bibliothèque est donc limitée. Cela pourrait freiner l'épuisement professionnel (comme Ryan Bates des railscasts), mais ce n'est que 24 par an. J'ai claqué les 7 vidéos en une nuit. Je m'attends à ce que certains appétits ne soient pas rassasiés.
Enfin, le contenu est pro. Certains screencasts sont étiquetés comme débutants. Ce n’est pas le cas. Vous voudrez vous familiariser avec les données et certains algorithmes avant de vous lancer. Si vous êtes encore en train de décider quel outil ou quelle bibliothèque utiliser pour exécuter votre premier classificateur sur l'ensemble de données iris, ces ressources ne sont pas pour vous.
Résumé
Il s’agit d’une excellente ressource qui semble devenir un incontournable au fil du temps.
- C’est créé par un vrai pro, un patron bayésien.
- C’est trop bon marché (augmentez vos prix, pensez à proposer un pass annuel/à vie pour quelques centaines/milliers de dollars).
- C'est vraiment destiné aux praticiens de niveau intermédiaire (ou supérieur), disent les pairs de Cameron ou proches.
- Il ne s'agit que d'une douzaine de vidéos, mais elles seront ajoutées mensuellement.
- Il n’a pas de feuille de route « suivez-moi d’un point à un b », mais il fournit des pics lors des prochains castings.
Si les données sont votre travail quotidien, consultez Data Origami et participez tôt pour soutenir Cameron et sa vision d'étonnants screencasts de science des données de classe mondiale.