Interpréter et communiquer les résultats de la science des données
En tant que data scientists, nous investissons souvent beaucoup de temps et d'efforts dans la préparation des données, le développement de modèles et l'optimisation. Cependant, la véritable valeur de notre travail apparaît lorsque nous pouvons interpréter efficacement nos conclusions et les transmettre aux parties prenantes. Ce processus implique non seulement de comprendre les aspects techniques de nos modèles, mais également de traduire des analyses complexes en récits clairs et percutants.
Ce guide explore les trois domaines clés suivants du flux de travail de la science des données :
- Comprendre la sortie du modèle
- Effectuer des tests d'hypothèse
- Créer des récits de données
En développant des compétences dans ces domaines, vous serez mieux équipé pour traduire des analyses complexes en informations qui trouvent un écho auprès d’un public technique et non technique.
Commençons.
Comprendre la sortie du modèle
La première étape pour obtenir des informations significatives sur votre projet consiste à bien comprendre ce que votre modèle vous dit. Selon le modèle que vous exécutez, vous pourrez extraire différents types d'informations.
Interprétation des coefficients dans les modèles linéaires
Pour les modèles linéaires, les coefficients fournissent des informations directes sur la relation entre les caractéristiques et la variable cible. Notre article « Interprétation des coefficients dans les modèles de régression linéaire » explore ce sujet en profondeur, mais voici quelques points clés :
- Interprétation de base : dans une régression linéaire simple, le coefficient représente la modification de la variable cible pour une modification d'une unité de la caractéristique. Par exemple, dans un modèle de prévision du prix de l'immobilier utilisant l'ensemble de données Ames Housing, un coefficient de 110,52 pour « GrLivArea » (surface habitable hors sol) signifie qu'en moyenne, une augmentation de 1 pied carré correspond à une augmentation de 110,52 $de la surface prévue. prix de l’immobilier, en supposant que tous les autres facteurs restent constants.
- Direction de la relation : le signe du coefficient (positif ou négatif) indique si la caractéristique a une relation positive ou négative avec la variable cible.
- Variables catégorielles : pour les caractéristiques catégorielles telles que « Quartier », les coefficients sont interprétés par rapport à une catégorie de référence. Par exemple, si « MeadowV » est le quartier de référence, les coefficients des autres quartiers représentent la prime ou la remise de prix par rapport à « MeadowV ».
Importance des fonctionnalités dans les modèles arborescents
Comme le montre « Exploring LightGBM », la plupart des méthodes basées sur les arbres, notamment les forêts aléatoires, les machines de gradient boosting et LightGBM, fournissent un moyen de calculer l'importance des caractéristiques. Cette mesure indique l’utilité ou la valeur de chaque fonctionnalité dans la construction des arbres de décision du modèle.
Aspects clés de l’importance des fonctionnalités :
- Calcul : généralement basé sur la contribution de chaque caractéristique à la diminution des impuretés dans tous les arbres.
- Importance relative : généralement normalisée pour totaliser 1 ou 100 % pour faciliter la comparaison. En normalisant l'importance des fonctionnalités, nous pouvons facilement comparer la contribution des différentes fonctionnalités et hiérarchiser celles qui comptent le plus pour la prise de décision.
- Variations du modèle : différents algorithmes peuvent présenter de légères variations dans les méthodes de calcul.
- Visualisation : souvent affichée à l'aide de graphiques à barres ou de cartes thermiques des principales fonctionnalités.
Dans l'exemple LightGBM avec l'ensemble de données Ames Housing, « GrLivArea » et « LotArea » sont apparus comme les caractéristiques les plus importantes, soulignant le rôle de la taille de la propriété dans la prévision du prix de l'immobilier. En communiquant efficacement l’importance des fonctionnalités, vous fournissez aux parties prenantes des informations claires sur ce qui détermine les prédictions de votre modèle, améliorant ainsi l’interprétabilité et la fiabilité.
Effectuer des tests d'hypothèse
Les tests d'hypothèses sont une méthode statistique utilisée pour faire des inférences sur les paramètres de la population sur la base de données d'échantillonnage. Dans le contexte de l'ensemble de données Ames Housing, cela peut nous aider à répondre à des questions telles que « La présence de la climatisation affecte-t-elle de manière significative les prix des logements ?
Composants clés :
- Hypothèse nulle (H₀) : l'hypothèse par défaut, indiquant souvent aucun effet ou aucune différence.
- Hypothèse alternative (H₁) : l'affirmation que vous souhaitez étayer par des preuves.
- Niveau de signification (α) : seuil permettant de déterminer la signification statistique, généralement fixé à 0,05.
- Valeur P : probabilité d'obtenir des résultats au moins aussi extrêmes que les résultats observés, en supposant que l'hypothèse nulle est vraie.
Diverses techniques statistiques peuvent être utilisées pour extraire des informations significatives :
- Tests T : comme démontré dans « Test des hypothèses dans l'immobilier », les tests T peuvent déterminer si des caractéristiques spécifiques affectent de manière significative les prix de l'immobilier.
- Intervalles de confiance : pour quantifier l'incertitude de nos estimations, nous pouvons calculer des intervalles de confiance qui fournissent une plage de valeurs plausibles, comme nous l'avons fait dans « Inférences inférentielles ».
- Tests du chi carré : ces tests peuvent révéler des relations entre des variables catégorielles, telles que le lien entre la qualité extérieure d'une maison et la présence d'un garage, comme le montre « Garage ou pas ? ».
En appliquant ces techniques de test d’hypothèses et en interprétant les résultats, vous pouvez transformer les données brutes et les résultats du modèle en un récit convaincant. L’astuce ici consiste à cadrer vos conclusions dans un contexte plus large afin qu’elles puissent être traduites en informations exploitables.
Créer des récits de données
Bien qu'aucun modèle ne soit parfait, nous avons démontré des moyens d'extraire des informations significatives de notre analyse de l'ensemble de données Ames Housing. La clé d’une science des données efficace ne réside pas seulement dans l’analyse elle-même, mais aussi dans la manière dont nous communiquons nos résultats. L'élaboration d'un récit de données convaincant transforme des résultats statistiques complexes en informations exploitables qui trouvent un écho auprès des parties prenantes.
Cadrer vos découvertes
- Commencez par une vue d'ensemble : commencez votre récit en définissant le contexte du marché immobilier d'Ames. Par exemple : « Notre analyse de l'ensemble de données Ames Housing révèle les facteurs clés qui déterminent les prix des logements dans l'Iowa, offrant des informations précieuses aux propriétaires, aux acheteurs et aux professionnels de l'immobilier.
- Mettez en évidence les informations clés : présentez dès le départ vos conclusions les plus importantes. Par exemple : « Nous avons identifié que la taille de la surface habitable, la qualité globale de la maison et le quartier sont les trois principaux facteurs qui influencent les prix des logements à Ames. »
- Raconter une histoire avec des données : intégrez vos résultats statistiques dans un récit cohérent. Par exemple : « L’histoire des prix des logements à Ames est avant tout une histoire d’espace et de qualité. Notre modèle montre que pour chaque pied carré supplémentaire de surface habitable, les prix des logements augmentent en moyenne de 110 USD. Dans le même temps, les maisons classées « Excellent » en termes de qualité globale bénéficient d'une prime de plus de 100 000 USD par rapport à celles classées « Passable ».
- Créer des visualisations de données efficaces : notre article, « Déplier les histoires de données : du premier coup d'œil à l'analyse approfondie » présente un large éventail de visuels que l'on peut utiliser en fonction des données dont on dispose. Choisissez le bon type de tracé pour vos données et votre message, et assurez-vous qu’il est clair et facile à interpréter.
Vos résultats doivent raconter une histoire cohérente. Commencez par une vue d’ensemble, puis plongez dans les détails. Adaptez votre présentation à votre public. Pour les publics techniques, concentrez-vous sur la méthodologie et les résultats détaillés. Pour les publics non techniques, mettez l’accent sur les principales conclusions et leurs implications pratiques.
Conclusion du projet et prochaines étapes
Lorsque vous terminez votre projet :
- Discutez des améliorations potentielles et des travaux futurs. Quelles questions restent sans réponse ? Comment votre modèle pourrait-il être amélioré ?
- Réfléchissez au processus de science des données et aux leçons apprises. Qu'est-ce qui s'est bien passé ? Que feriez-vous différemment la prochaine fois ?
- Considérez les implications plus larges de vos découvertes. Quel impact vos idées pourraient-elles avoir sur les décisions du monde réel ? Y a-t-il des recommandations politiques ou des stratégies commerciales qui émergent de votre analyse ?
- Après avoir présenté vos conclusions, recueillir les commentaires des parties prenantes peut vous aider à affiner votre approche et à découvrir des domaines supplémentaires à explorer.
N'oubliez pas que la science des données est souvent un processus itératif. N'ayez pas peur de revenir sur les étapes précédentes à mesure que vous obtenez de nouvelles informations. Ce guide vous a fourni quelques techniques sur les étapes critiques de l’interprétation des résultats et de la communication des informations. En comprenant les résultats du modèle, en effectuant des tests d’hypothèses et en élaborant des récits de données convaincants, vous êtes bien équipé pour entreprendre une variété de projets et obtenir des résultats significatifs.
Tout en poursuivant votre parcours en science des données, continuez à perfectionner vos compétences en analyse et en communication. Votre capacité à extraire des informations significatives et à les présenter efficacement vous distinguera dans ce domaine en évolution rapide.