Comment booster vos compétences en analyse de données avec Python
Si vous apprenez Python, vous avez probablement entendu parler de sci-kit-learn, NumPy et Pandas. Et ce sont toutes des bibliothèques importantes à apprendre. Mais ils ont bien plus à offrir que vous ne le pensez au départ.
Il existe de nombreux trucs et astuces dans le monde de Python qui peuvent vous aider à accélérer vos tâches en science des données, à améliorer votre code et également à écrire du code plus efficacement.
J'ai donc décidé de compiler pour vous certains des conseils d'analyse de données les plus précieux dans cet article.
Cadres de données de profil dans Pandas
Le rôle ou l’objectif principal du profilage est d’obtenir une compréhension claire des données. Et c'est ce que fait le package Python, Pandas Profiling. Cette méthode est simple et rapide pour effectuer une analyse des données des trames de données dans Pandas.
Le processus d'analyse exploratoire des données inclut les fonctions Pandas df.info() et df.describe() comme premières étapes. Mais vous n'obtenez qu'un aperçu de base des données, ce qui peut ne pas être très utile si vous avez affaire à un grand ensemble de données.
La fonction de profilage de Pandas étend également la trame de données de Pandas avec df.profile_report(), qui vous aide à analyser rapidement les données. Il affiche de nombreuses informations sur une seule ligne de code, qui se trouve également être un rapport HTML interactif.
Pour un ensemble de données, le profilage Pandas calcule ces statistiques :
Rendre les tracés de pandas plus interactifs
La fonction plot() intégrée de Pandas est également l'une des classes Dataframe. Cependant, cette fonction propose des visualisations peu interactives et ne plaisent donc pas beaucoup à un public de data science.
D'un autre côté, il est facile de tracer un graphique avec la fonction Pandas.DataFrame.plot(). La question est alors de savoir comment tracer des graphiques interactifs comme Plotly en utilisant Pandas et sans apporter de modifications significatives au code ?
Vous pouvez le faire avec la bibliothèque Cufflinks, qui lie la puissance de Plotly à la flexibilité de Pandas pour tracer rapidement.
Vous pouvez voir le résultat dans les images ci-dessous.
Les deux visualisations montrent les mêmes choses. La première visualisation est un graphique statique, tandis que la seconde est un graphique plus interactif (et fournit également plus de détails que le premier). Pourtant, nous avons obtenu cela sans apporter de modifications significatives à la syntaxe.
Commandes magiques
La balise « Magic Commands » fait référence à un ensemble de fonctions dans Jupyter Notebooks. Ils ont créé cet ensemble de fonctionnalités pour résoudre les nombreux problèmes courants rencontrés lors de l’analyse de données standard.
Il existe deux types de commandes Magic. Tout d'abord, il y a les lignes magiques - celles qui ont un préfixe du caractère %. Ils fonctionnent également sur une seule ligne d’entrée.
Le deuxième type est la magie cellulaire – désignée par le préfixe double %%. Ils fonctionnent sur plus d'une ligne d'entrée. Si vous le définissez sur 1, vous appellerez les fonctions magiques sans avoir besoin de saisir le % initial.
Certaines de ces commandes peuvent s'avérer utiles lorsque vous effectuez des tâches quotidiennes d'analyse de données. Certains d'entre eux sont:
%pastebin
Cette fonction renvoie l'URL et télécharge également le code sur Pastebin. Pastebin est un service d'hébergement de contenu en ligne où il est possible de stocker du texte brut (tel que des extraits de code source), puis de partager l'URL avec d'autres personnes.
En fait, l’essentiel de Github est très similaire à Pastebin, mais dispose d’un contrôle de version.
Carnet %matplotlib
Vous pouvez utiliser cette fonction en ligne pour restituer des tracés Matplotlib statiques dans les notebooks Jupyter. Vous devez essayer de remplacer la partie en ligne par un cahier. Cela vous permettra d'obtenir rapidement des tracés redimensionnables et zoomables.
Mais assurez-vous d'appeler la fonction avant de commencer à importer la bibliothèque Matplotlib.
%courir
Vous pouvez utiliser cette fonction pour exécuter un script Python dans un notebook.
%%écrire un fichier
Cette fonction écrit le contenu de la cellule dans un fichier. Vous écrivez ensuite le code dans un autre fichier nommé foo.py avant de l'enregistrer dans le répertoire actuel.
%%latex
Cette fonction fait apparaître le contenu de la cellule au format LaTeX. Cela s’avère utile lors de l’écriture d’équations et de formules mathématiques dans une cellule.
Rechercher et supprimer les erreurs
La fonction connue sous le nom de débogueur interactif est une autre fonctionnalité magique. Cependant, pour cet article, il a une catégorie différente qui lui est propre.
Si vous exécutez une cellule de code et obtenez une exception, tapez %debug sous une nouvelle ligne, puis exécutez-la. Cela ouvrira un environnement de débogage interactif qui vous ramènera au point où l'exception s'est produite.
Vous pouvez également vérifier les valeurs des différentes variables qu'elles ont assignées dans le programme et, en même temps, y effectuer des opérations. Après cela, si vous souhaitez quitter le débogueur, appuyez sur q.
Utilisez l'option « I » lors de l'exécution de scripts Python
Une façon d'exécuter généralement un script Python à partir de la ligne de commande consiste à utiliser hello.py. Mais si vous ajoutez un -i et exécutez le même script Python (Python -i hello.py), vous obtenez plus d'avantages. Comment?
Tout d’abord, une fois arrivé à la fin du programme, Python ne ferme pas l’interpréteur. Cela signifie que nous pouvons vérifier les valeurs des différentes variables et l'exactitude des fonctions définies dans le programme.
Deuxièmement, il est alors facile d'invoquer le débogueur Python, d'autant plus que l'interpréteur est toujours disponible par :
- Importer un fichier PDF
- Pdb.pm()
À partir de là, nous pouvons rapidement arriver au point où l’exception s’est produite, puis travailler sur le code.
Supprimer et restaurer
Alors, que faites-vous lorsque vous supprimez par erreur une cellule de votre bloc-notes Jupyter ? Heureusement, il existe un raccourci pour annuler cette action.
Vous pouvez récupérer ou annuler votre contenu supprimé en appuyant sur CTRL/CMD+Z.
Si vous avez supprimé une cellule entière que vous souhaitez récupérer, appuyez sur ESC+Z ou sur EDIT > Annuler la suppression des cellules.
Conclusion
Cet article partage quelques conseils pour améliorer vos compétences en analyse de données avec Python. Ces hacks devraient vous être utiles à un moment donné de votre parcours d’analyse de données Python.