Recherche de site Web

Distribution de Poisson – Une formule pour calculer la distribution de probabilité


Les distributions de probabilité jouent un rôle important dans notre vie quotidienne. Nous les utilisons couramment lorsque nous essayons de résumer et d’obtenir des informations à partir de différentes formes de données.

Pour cette raison, ils constituent un sujet très important dans des domaines tels que les mathématiques, l'informatique, les statistiques et la science des données.

Il existe deux principaux types de données : numériques (par exemple des entiers et des flottants) et catégoriques (par exemple chaînes de texte).

Les données numériques peuvent également se présenter sous deux formes :

  • Discrète : cette forme de données ne peut prendre qu'un nombre limité de valeurs (comme le nombre de vêtements que nous possédons). Nous pouvons déduire des fonctions de masse de probabilité à partir de données discrètes.
  • Continu : d'autre part, les données continues sont utilisées pour décrire des concepts plus abstraits tels que le poids/la distance qui peuvent prendre n'importe quelle valeur fractionnaire ou réelle. À partir de données continues, nous pouvons plutôt déduire des fonctions de densité de probabilité.

Les fonctions de masse de probabilité peuvent nous donner la probabilité qu'une variable soit égale à une certaine valeur. D’un autre côté, les valeurs des fonctions de densité de probabilité ne représentent pas des probabilités en elles-mêmes, mais doivent d’abord être intégrées (dans la plage considérée).

Qu'est-ce qu'une distribution de Poisson ?

Les distributions de Poisson sont couramment utilisées à deux fins principales :

  • Prédire combien de fois un événement aura lieu au cours d’une période donnée. Cette technique peut être utilisée pour différentes applications d’analyse des risques telles que l’estimation du prix de l’assurance habitation.
  • Estimer la probabilité qu'un événement se produise compte tenu de la fréquence à laquelle il s'est produit dans le passé (par exemple, quelle est la probabilité qu'il y ait une coupure de courant dans les deux prochains mois).

Les distributions de Poisson nous permettent d'être sûrs du temps moyen entre l'apparition de différents événements. Ils ne peuvent cependant pas nous indiquer le moment précis où un événement pourrait avoir lieu (puisque les processus ont généralement un comportement stochastique).

Systèmes linéaires et non linéaires

Les systèmes naturels peuvent en fait être divisés en deux catégories principales : linéaires et non linéaires (stochastiques).

Dans les systèmes linéaires, les causes précèdent toujours leur effet, ce qui crée un fort effet de préséance temporelle.

Mais cela n’est pas vrai lorsqu’on parle de systèmes non linéaires, car de petits changements dans les conditions initiales du système peuvent conduire à des résultats imprévisibles.

Compte tenu de la complexité et du chaos de notre monde réel, la plupart des processus sont mieux décrits à l’aide de systèmes non linéaires, bien que des approximations linéaires soient parfois possibles.

Les distributions de Poisson peuvent être modélisées à l'aide de l'expression de la figure ci-dessous, où λ est utilisé pour représenter le nombre attendu d'événements qui peuvent avoir lieu dans la période considérée.


Les principales caractéristiques qui décrivent les processus de Poisson sont :

  1. Deux événements ne peuvent pas avoir lieu simultanément.
  2. Le taux moyen entre les occurrences d’événements est globalement constant.
  3. Les événements sont indépendants les uns des autres (si l’un d’entre eux se produit, cela n’a aucune influence sur la probabilité qu’un autre événement se produise).
  4. Les événements peuvent avoir lieu un nombre illimité de fois (dans le laps de temps considéré).

Un exemple de distribution de Poisson

Dans la figure ci-dessous, vous pouvez voir comment la variation du nombre attendu d'événements (λ) qui peuvent avoir lieu au cours d'une période peut modifier une distribution de Poisson. L'image ci-dessous a été simulée en utilisant ce code Python :

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# n = number of events, lambd = expected number of events 
# which can take place in a period
for lambd in range(2, 12, 2):
    n = np.arange(0, 9)
    poisson = stats.poisson.pmf(n, lambd)
    plt.plot(n, poisson, '-o', label="λ = {:f}".format(lambd))
    plt.xlabel('Number of Events', fontsize=12)
    plt.ylabel('Probability', fontsize=12)
    plt.title("Poisson Distribution varying λ")
    plt.legend()
    plt.savefig('name.png')

En regardant de plus près cette simulation, nous pouvons découvrir les modèles suivants :

  • Dans chacun des différents cas, le numéro attribué à λ correspond au pic de la distribution, qui s'atténue ensuite en s'éloignant du pic.
  • Plus il y a d’événements attendus au cours de la simulation, plus l’aire attendue sous la courbe de distribution sera grande.

Ce type de simulation pourrait, par exemple, être utilisé pour tenter de réduire le temps d'attente pour faire ses courses au supermarché.

Le propriétaire pourrait créer un enregistrement du nombre de clients visitant le magasin à différents moments et différents jours de la semaine afin d'adapter ensuite ces données à une distribution de Poisson.

De cette façon, il serait beaucoup plus facile de déterminer combien de caissiers devraient travailler à différents moments de la journée/semaine afin d'améliorer l'expérience client.

Emballer

Si vous souhaitez en savoir plus sur les applications des distributions dans des contextes stochastiques, plus d'informations sont disponibles ici.

J'espère que vous avez apprécié cet article, merci de l'avoir lu !

Contactez moi

Si vous souhaitez rester informé de mes derniers articles et projets, suivez-moi sur Medium et abonnez-vous à ma liste de diffusion. Voici quelques-uns de mes coordonnées :

  • Linkedin
  • Blog personnel
  • Site Web personnel
  • Patréon
  • Profil moyen
  • GitHub
  • Kaggle

Articles connexes