Верификация гидрологических прогнозов: введение

Гистограмма ранжированных данных

  • Вероятностные прогнозы часто связаны с ансамблевыми прогнозами, например с системой Ансамблевого прогнозирования речного стока.
  • Ансамблевый разброс – диапазон возможных значений ансамблевого прогноза.
  • Что считается адекватным ансамблевым разбросом?
    • Использование гистограммы ранжированных данных

При составлении вероятностных прогнозов мы часто имеем дело с ансамблевыми прогнозами, например, прогнозами, составленными системой Ансамблевого прогнозирования речного стока.

Диапазон прогнозируемых значений в ансамблевом прогнозе называется ансамблевым разбросом.

Что считается адекватным ансамблевым разбросом? Чтобы ответить на этот вопрос, мы используем гистограмму ранжированных данных, которую иногда называют диаграммой Талаграна.

Гистограмма ранжированных данных (Рисунок 1)

В самом простом случае мы имеем один элемент ансамбля, связанный с двумя интервалами прогноза, один из которых больше, а другой – меньше прогнозируемого значения. Это детерминистский прогноз.

Гистограмма ранжированных данных (Рисунок 2)

Теперь предположим, что у нас есть две пары прогноз–наблюдение. В идеально откалиброванной ансамблевой системе одно наблюденное значение попадет в верхний интервал, а другое – в нижний.

Гистограмма ранжированных данных (Рисунок 3)

Если бы у нас было два элемента ансамбля, тогда было бы три интервала прогноза. Два из трех интервалов прогноза окажутся за пределами ансамблевого разброса. Средний интервал охватывает диапазон между указанными двумя элементами ансамбля.

Гистограмма ранжированных данных (Рисунок 4)

Теперь предположим, что у нас есть три наблюденных значения. В идеально откалиброванной ансамблевой системе одно наблюденное значение попадет в верхний интервал, другое – в средний, а третье – в нижний. Значение, попавшее в средний интервал, находится в пределах ансамблевого разброса.

Гистограмма ранжированных данных (Рисунок 5)

При наличии пяти элементов ансамбля и, следовательно, шести интервалов прогноза, два из шести интервалов прогноза вышли бы за пределы ансамблевого разброса. Теперь предположим, что у нас есть шесть наблюденных значений. Нам нужно одно наблюденное значение в верхнем интервале, по одному в каждом из четырех средних интервалов и одно в нижнем интервале. Четыре значения, попавшие в средний интервал, находятся в пределах ансамблевого разброса.

Для любого хорошо калиброванного ансамблевого прогноза процент наблюдений, которые должны выходить за пределы ансамблевого разброса, равен частному от деления 2-х на количество интервалов.

Вопрос

Итак, при наличии 39 элементов ансамбля, и, соответственно, 40 интервалов прогноза, какой процент наблюдений должен выходить за пределы ансамблевого разброса в хорошо откалиброванной системе?

Выберите наиболее правильный ответ.

Правильный ответ - а, 5%

В хорошо откалиброванной системе в каждом интервале будет одинаковое число случаев. Таким образом, процентное значение, выходящее за пределы ансамблевого разброса, рассчитывается следующим образом: 2 делим на количество интервалов, равное 40, получаем 0.05, или 5%.

Выберите.
Объяснение гистограммы ранжированных данных

В действительности каждый интервал прогноза обычно охватывает более одного наблюденного значения. Рассмотрим ансамблевый прогноз стока из 5 элементов. В этом примере мы будем использовать целочисленные прогнозные значения стока. Ансамбль состоит из следующих элементов: 210, 200, 330, 150 и 260 единиц.

Объяснение гистограммы ранжированных данных

Чтобы построить гистограмму ранжированных данных, мы сначала упорядочиваем элементы ансамбля, в данном случае от самого низкого до самого высокого значения, в результате чего получаем 6 интервалов значений: меньше 150, 150 – 199, 200 – 209, 210 – 259, 260 – 329, а также значений, превышающих или равных 330.

Обратите внимание, что полученные интервалы охватывают неравные диапазоны значений. Например, диапазон значений интервала 3 содержит только числа от 200 до 209, тогда как интервал 5 охватывает гораздо больший диапазон: от 260 до 329.

Объяснение гистограммы ранжированных данных

Но в хорошо откалиброванной системе прогнозов вероятность попадания в каждый интервал одинакового числа наблюдений одинакова. Таким образом, вероятность того, что значение стока будет находиться в интервале 200-209, равна вероятности того, что значение стока будет находиться в интервале 260-329.

Объяснение гистограммы ранжированных данных

Наблюдения попадают в соответствующий интервал.

Объяснение гистограммы ранжированных данных

В этом случае мы имеем разное количество наблюдений в каждом интервале.

Объяснение гистограммы ранжированных данных

Итак, теперь перед нами гистограмма, показывающая повторяемость наблюдений на интервал прогноза. Например, гистограмма показывает, что в интервал 1 попало три наблюдения со значениями меньше 150.

Объяснение гистограммы ранжированных данных

Дальше мы создаем ось Y, на которой показываем повторяемость наблюдений. Теперь мы имеем гистограмму ранжированных данных, которую некоторые также называют диаграммой Талаграна.

Часто на оси Y показывают значения повторяемости, разделенной на ожидаемую повторяемость.

Примеры диаграммы Талаграна

Тогда как следует интерпретировать гистограмму ранжированных данных? Гистограмма ранжированных данных предоставляет информацию о распределении наблюдений, связанных с ансамблевыми прогнозами. Давайте посмотрим на некоторые идеализированные гистограммы ранжированных данных.

Плоская гистограмма Талаграна

Идеальное распределение наблюдений в ансамблевых прогнозах показало бы одинаковую повторяемость для каждого интервала. И, если по оси Y показано отношение повторяемости к ожидаемой повторяемости, то каждый столбец диаграммы будет иметь высоту 1.0.

Примеры U-образной диаграммы Талаграна

Если гистограмма ранжированных данных имеет U-образную форму, это говорит о том, что слишком много наблюдений со значениями, близкими к экстремальным. Ансамблевый разброс слишком мал и должен быть больше.

Примеры перевернутой U-образной диаграммы Талаграна

И наоборот, что если бы гистограмма ранжированных данных имела перевернутую U-образную форму или форму купола? Это свидетельствовало бы о недостатке наблюдений со значениями, близкими к экстремальным. Ансамблевый разброс слишком большой и должен быть меньше.

Примеры диаграммы Талаграна – нарастающая наклонная

Если гистограмма ранжированных данных показывает увеличение повторяемости вправо и принимает вид повышающейся наклонной, это указывает на то, что наблюдения слишком часто находятся в верхней части ансамблевого разброса и прогнозные значения занижены.

И наоборот, если гистограмма ранжированных данных показывает увеличение повторяемости влево и принимает вид ниспадающей наклонной или форму буквы «L», это указывает на то, что наблюдения слишком часто находятся в нижней части ансамблевого разброса, и прогнозные значения завышены.

В отношении гистограмм ранжированных данных важно отметить, что они требуют большого количества пар прогноз – наблюдение. Гистограммы ранжированных данных, созданные для меньшего, чем количество элементов ансамбля, количества пар, по сути, являются бесполезными.