10 Pandas One Liners pour l'accès, la manipulation et la gestion des données
Ces 10 lignes directrices vous aideront à commencer à accéder, à manipuler et à gérer les données à l'aide de Pandas.
Python est connu pour être un langage facile à lire, à écrire et à comprendre. Sa syntaxe est également expressive et flexible, ce qui signifie que ce qui pourrait nécessiter un certain nombre de lignes de code dans d'autres langages pourrait être accompli de manière beaucoup plus concise en Python. Beaucoup de puissance peut être intégrée dans une seule ligne de Python.
Pandas est une bibliothèque Python open source populaire pour l'analyse, la manipulation et le nettoyage des données. Pandas fournit des structures de données pour stocker des ensembles de données, ainsi que des outils pour travailler avec eux. Ces outils sont incroyablement variés et toutes sortes de traitements de données peuvent être réalisés à l'aide de la bibliothèque.
Cet article partagera 10 lignes simples Python à utiliser avec la bibliothèque Pandas afin de vous permettre d'accéder, de manipuler et de gérer les données immédiatement.
1. Lire les données d'un CSV
Cette seule doublure sert à lire des données dans un Pandas DataFrame à partir d'un fichier CSV.
df = pd.read_csv('data.csv')
2. Supprimez les colonnes avec des valeurs nulles
Cette seule ligne supprime les colonnes avec un nombre quelconque de valeurs nulles.
df.drop(df.columns[df.isnull().sum() > 0], axis=1, inplace=True)
3. Créez une nouvelle colonne basée sur les colonnes existantes
Cette ligne de Python crée une nouvelle colonne basée sur les colonnes existantes.
df['new_col'] = df.apply(lambda x: x['col_1'] * x['col_2'], axis=1)
4. Regrouper et calculer la moyenne des colonnes
Voici une ligne pour regrouper et calculer la moyenne des colonnes.
df.groupby('group_col').mean()
5. Filtrer les lignes en fonction de valeurs spécifiques
Cette ligne de code permet de filtrer les lignes en fonction d'une valeur spécifique.
df.loc[df['col'] == 'value']
6. Trier un DataFrame par une colonne spécifique
Cette ligne Python sert à trier la trame de données par une colonne spécifique.
df.sort_values(by='col_name', ascending=False)
7. Remplissez toutes les valeurs nulles
Cela remplira toutes les valeurs nulles d'un DataFrame avec 0.
df.fillna(0)
8. Supprimer les lignes en double
Cette ligne de code supprimera les lignes en double de votre DataFrame.
df.drop_duplicates()
9. Créez un tableau croisé dynamique
Cette doublure sert à créer un tableau croisé dynamique.
df.pivot_table(index='col_1', columns='col_2', values='col_3')
10. Enregistrer dans un fichier CSV
Et enfin, ce code Python enregistrera un DataFrame manipulé dans un nouveau fichier CSV.
df.to_csv('new_data.csv', index=False)
Cet article a présenté 10 lignes simples Python pour accéder, manipuler et gérer les données avec la bibliothèque Pandas. En avons-nous oublié ? Déposez quelques doublures Pandas intéressantes dans les commentaires ci-dessous.