Explorer la distribution des données
Introduction
La distribution des données nous donne des informations utiles sur les données tout en travaillant avec n'importe quel cas d'utilisation de la science des données ou de l'apprentissage automatique. La distribution des données concerne la manière dont les données sont disponibles et leur état actuel, les informations sur des parties spécifiques des données, les valeurs aberrantes dans les données ainsi que les tendances centrales liées aux données.
Pour explorer la distribution des données, il existe des méthodes graphiques populaires qui s'avèrent bénéfiques lors de l'utilisation des données. Dans cet article, explorons ces méthodes.
En savoir plus sur vos données : la méthode graphique
Histogrammes et tracés de densité KDE
Les histogrammes sont l'outil d'exploration de données le plus populaire et le plus couramment utilisé parmi les méthodes graphiques. Dans un histogramme, des barres rectangulaires sont utilisées pour représenter la fréquence d'une variable ou d'une catégorie particulière, ou d'un compartiment. Le regroupement est pris en charge lorsque nous disposons de différents compartiments dans lesquels les données peuvent être présentes.
Comprenons l'histogramme en utilisant l'exemple de code ci-dessous sur l'ensemble de données sur les prix de l'immobilier.
Lien vers l'ensemble de données - https://drive.google.com/file/d/1XbyBcw6OfE_w3ZeqPM1s_6jT8XeTCeOT/view?usp=sharing
Le code ci-dessous nous aide à comprendre plus efficacement les histogrammes. Dans cet exemple de code, nous avons utilisé l'ensemble de données sur le prix de l'immobilier pour tracer la fréquence ou l'histogramme pour SalePrice vs Frequency sur le côté gauche. Le tracé de droite est le tracé KDE pour la distribution SalePrice vs Frequency. Le tracé de densité est la fonction de densité de probabilité de l'histogramme.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
df = pd.read_csv("/content/house_price_data.csv")
figure, ax = plt.subplots(1, 2, sharex=True, figsize=(12, 6))
ax[0]= sns.histplot(data=df, x="SalePrice",ax=ax[0])
ax[0].set_ylabel("Frequency")
ax[0].set_xlabel("SalePrice")
ax[0].set_title("Frequency(Histogram)")
ax[1]= sns.distplot(df.SalePrice, kde = True,ax=ax[1])
ax[1].set_ylabel("Density")
ax[1].set_xlabel("SalePrice")
ax[1].set_title("Frequency(Histogram)")
Sortir
Dans l'exemple de code ci-dessous, nous avons utilisé des bacs pour différentes classes. Nous avons utilisé l'ensemble de données sur les manchots pour tracer la profondeur du bec par rapport au nombre. Ici, la profondeur du bec est regroupée entre différentes parenthèses et est tracée sur l'axe des x avec le nombre ou la fréquence sur l'axe des y.
# Using bins on penguins' dataset – seaborn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
data_pen = sns.load_dataset("penguins")
sns.histplot(data=data_pen, x="bill_depth_mm", bins=15)
Sortir
Boîtes à moustaches
Les boîtes à moustaches sont également connues sous le nom de boîtes à moustaches. Le diagramme en boîte représente le centile des données. L'ensemble des données est divisé en différents centiles, parmi lesquels les principaux quantiles sont les 25e, 50e et 75e centiles. Le 50e centile représente la médiane. Les boîtes à moustaches montrent les données situées entre les 25e et 75e centiles, connues sous le nom d'IQR (Inter Quartile Range).
Comprenons le boxplot en utilisant l'exemple de code ci-dessous sur l'ensemble de données sur les prix de l'immobilier.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
df = pd.read_csv("/content/house_price_data.csv")
subset = pd.concat([df['SalePrice'], df['OverallQual']])
figure = sns.boxplot(x='OverallQual', y="SalePrice", data=df)
Sortir
Intrigue pour violon
Cela ressemble aux boîtes à moustaches, cependant, la distribution de probabilité des variables est également indiquée dans le graphique. Il est utilisé pour comparer les distributions de probabilité des variables observées.
Comprenons l'intrigue du violon en utilisant l'exemple de code ci-dessous sur l'ensemble de données sur les prix de l'immobilier.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
df = pd.read_csv("/content/house_price_data.csv")
subset = pd.concat([df['SalePrice'], df['MSSubClass']])
figure = sns.violinplot(x='MSSubClass', y="SalePrice", data=df)
Sortir
Conclusion
Les boîtes à moustaches, les diagrammes de densité et les diagrammes en violon sont les méthodes les plus populaires et les plus courantes pour explorer les distributions de données. Ils sont fiables et hautement approuvés par les ingénieurs en apprentissage automatique et les scientifiques des données. Ces graphiques nous donnent une idée des données et de la façon dont les données sont distribuées. En outre, des informations de base concernant l'asymétrie, la rareté, etc. peuvent également être déterminées à partir du tracé. Des tracés comme les Boxplots et les tracés en violon peuvent également indiquer des points aberrants.