Histogramme de rang

  • Les prévisions probabilistes s'appuient souvent sur des prévisions d'ensemble, par exemple les prévisions hydrologiques de l’ESP (Ensemble Streamflow Prediction).
  • Distribution de l'ensemble – La gamme des valeurs envisagées dans une prévision d'ensemble.
  • Qu'est-ce qu'une distribution d’ensemble appropriée?
    • Utilisation d’un histogramme de rang

On utilise souvent des prévisions d'ensemble pour les prévisions probabilistes. Par exemple, on peut s’appuyer sur les prévisions produites par l’ESP (Ensemble Streamflow Prediction), un système de prévision d'ensemble pour les écoulements fluviaux.

La gamme des valeurs prévues dans une prévision d'ensemble est appelée dispersion d'ensemble.

Qu'est-ce qu'une dispersion d'ensemble appropriée? Pour répondre à cette question, nous utilisons un histogramme de rang, qu’on appelle parfois un diagramme de Talagrand.

Illustration de l’histogramme de rang (1)

Dans le cas le plus simple, nous avons un membre de l’ensemble, associé à deux intervalles de prévision, l'un contenant des valeurs supérieures et l'autre des valeurs inférieures à la valeur prévue. Il s'agit d'une prévision déterministe.

Illustration de l'histogramme de rang (2)

Supposons maintenant que nous ayons deux couples prévision-observation. Dans un système d'ensemble parfaitement ajusté, une observation tomberait dans l’intervalle supérieur et une autre dans l’intervalle inférieur.

Illustration de l’histogramme de rang (3)

Si nous avions deux membres de l’ensemble, nous aurions trois intervalles de prévision. Deux des trois intervalles de prévision se situeront en dehors de la dispersion de l'ensemble. L’intervalle du milieu correspond à la gamme de valeurs située entre les deux membres de l’ensemble.

Illustration de l’histogramme de rang (4)

Supposons maintenant que nous ayons trois observations. Dans un système d'ensemble parfaitement ajusté, une observation tomberait dans l’intervalle supérieur, une dans l’intervalle du milieu, et une dans l’intervalle inférieur. Celui qui se trouve dans l’intervalle du milieu se trouve à l’intérieur de la dispersion de l'ensemble.

Illustration de l’histogramme de rang (5)

S'il y a cinq membres dans l’ensemble, et donc six intervalles de prévision, deux de ceux-ci se situeront en dehors de la dispersion d'ensemble. Supposons maintenant que nous ayons six observations. Nous voudrions qu'une observation trouve sa place dans l’intervalle supérieur, une dans chacun des intervalles intermédiaires, et une dans l’intervalle inférieur. Les quatre observations des intervalles intermédiaires se situent à l’intérieur de la dispersion de l'ensemble.

Pour toute prévision d'ensemble bien ajustée, le pourcentage d'observations qui tombent en dehors de la dispersion d'ensemble devrait être égal à deux divisé par le nombre d’intervalles.

Question

Dans un système bien ajusté, s'il y a 39 membres de l’ensemble, associés à 40 intervalles de prévision, quel pourcentage d'observations devrait tomber en dehors de la dispersion de l'ensemble?

Choisissez la bonne réponse.

La bonne réponse est a) 5 %.

Dans un système bien ajusté, chaque intervalle aura le même nombre d'observations. Ainsi, le pourcentage d’observations tombant en dehors de la dispersion de l'ensemble sera de 2 divisé par le nombre d’intervalles, à savoir 40, ce qui donne 0,05, ou 5 %.

Faites votre choix.
Histogramme de rang: explications

En réalité, il y a en général plus d'une observation dans chaque intervalle de prévision. Considérons une prévision d'ensemble de 5 membres pour le débit. Pour cet exemple, nous utiliserons des prévisions d'unités de débit exprimées en nombres entiers. Les membres de l’ensemble sont : 210, 200, 330, 150 et 260 unités.

Histogramme de rang: explications

Pour créer un histogramme de rang, nous classons d'abord les membres de l’ensemble, en l'occurrence, du plus faible au plus élevé, ce qui nous donne 6 intervalles, qui définissent les gammes de valeurs suivantes : inférieures à 150, 150 à 199, 200 à 209, 210 à 259, 260 à 329, et égales ou supérieures à 330.

Notez que les intervalles ont des gammes de valeurs inégales. Par exemple, l'intervalle 3 ne s'étend que de 200 à 209, alors que l’intervalle 5 s'étend sur une plage beaucoup plus grande, de 260 à 329.

Histogramme de rang: explications

Pourtant, dans un système de prévision bien ajusté, chaque intervalle a des chances égales de recevoir le même nombre d'observations. Il y a donc autant de chances qu'une valeur de débit se situe dans l'intervalle entre 200 et 209 que dans l'intervalle entre 260 et 329.

Histogramme de rang: explications

Chacune des observations est placée dans l’intervalle approprié.

Histogramme de rang: explications

Ici, nous avons un nombre variable d'observations dans les divers intervalles.

Histogramme de rang: explications

Nous avons donc maintenant un diagramme à barres, qui montre la fréquence des observations par intervalle de prévision. Par exemple, le diagramme à barres indique que trois observations sont tombées dans l’intervalle 1 (correspondant aux débits inférieurs à 150).

Histogramme de rang: explications

Ensuite, nous dessinons l’axe des y pour représenter la fréquence des observations. Nous avons maintenant un histogramme de rang, que certains appellent aussi diagramme de Talagrand.

L'axe des y est souvent défini comme la fréquence divisée par la fréquence attendue.

Exemples de Talagrand

Comment doit-on interpréter un histogramme de rang? L'histogramme de rang fournit des informations sur la distribution des observations, associées aux prévisions d'ensemble. Examinons quelques histogrammes de rang idéaux.

Exemple de Talagrand plat

Si les observations présentent une distribution parfaite dans les prévisions d'ensemble, nous trouverons la même fréquence dans chaque intervalle. Et, si l'axe des y est défini comme la fréquence divisée par la fréquence escomptée, chacune des barres du diagramme a une valeur de 1,0.

Exemples de Talagrand en forme de U

Si l'histogramme de rang prend la forme d'un U, cela signifie que trop d'observations se situent aux valeurs extrêmes. La dispersion de l’ensemble est trop petite et doit être augmentée.

Exemples de Talagrand en forme de dôme

À l'inverse, que doit-on conclure si l'histogramme de rang prend la forme d'un dôme? Cela indique que trop peu d'observations se situent aux valeurs extrêmes. La dispersion de l’ensemble est trop grande et doit être diminuée.

Exemples de Talagrand ascendant

Si la hauteur des barres (et donc la fréquence) augmente à mesure qu’on se déplace à droite de l'histogramme de rang (et que celui-ci prend la forme d’une pente ascendante), cela indique que les observations se situent trop souvent parmi les valeurs élevées de la dispersion de l'ensemble : il y a eu sous-estimation.

Inversement, si la hauteur des barres (et donc la fréquence) diminue à mesure qu’on se déplace à droite de l'histogramme, (pour ressembler à une pente descendante ou à un L), cela indique que les observations se situent trop souvent parmi les petites valeurs de l'ensemble : il y a eu surestimation.

Il est important de se rappeler que les histogrammes de rang exigent un nombre important de couples prévision-observation. Tout histogramme de rang qui comprendrait moins de couples que de membres de l'ensemble serait par définition inutile.