Верификация гидрологических прогнозов: введение

Введение

реечный водомерный пост

Оценка оправдываемости гидрологических прогнозов дает ценную информацию как для прогнозистов, так и для пользователей прогнозов.

гидрограф

Обе эти группы могут использовать приведенную информацию для оценки, улучшения и применения прогностической продукции.

люди строят дамбу из мешков с песком перед домом, окруженным паводковыми водами

Верификация гидрологических прогнозов может применяться в различных областях гидрологии, например, связанных со стоком талых вод или водоснабжением, и для всех типов стока, включая паводки и меженный сток.

Темы по верификации прогнозов

  • Свойства распределения
  • Доверительные интервалы прогноза
  • Корреляция
  • Категориальные прогнозы
  • Точность (статистика ошибок)
  • Успешность прогноза
  • Верификация условных прогнозов

В этом модуле будут рассмотрены и разъяснены статистические показатели и графические отображения, касающиеся семи тем по верификации гидрологических прогнозов. Эти темы были определены группой по системам верификации прогнозов Национальной метеорологической службы (НМС) США и рассматриваются в разделах 2 – 8 этого модуля.

В этом разделе рассматриваются причины верификации гидрологических прогнозов, а также приводятся важные понятия и термины. Мы рассмотрим следующие вопросы:

  • Зачем проводится верификация гидрологических прогнозов?
  • Почему одно число (один параметр) не может дать полное представление о прогнозе?
  • Что является «хорошим» прогнозом?
  • В отношении каких видов гидрологических прогнозов проводится верификация?
  • Каковы наиболее распространенные критерии оценки прогнозов?
  • Какие семь тем по верификации прогнозов использует группа по системам верификации НМС?

Зачем нужна верификация прогнозов?

Оценка и верификация прогнозов

Карта прогноза стока, Северо-восточный центр прогнозирования речного стока, Национальная метеорологическая служба США.

Есть три основные мотивации для оценки гидрологических прогнозов. Первая заключается в том, чтобы понять и количественно оценить точность и успешность составления прогнозов. Вторая – в том, чтобы понять, насколько хорошо информация доносится до пользователей прогнозов. А третья – в том, чтобы оценить полезность прогноза в контексте воздействия, с которым сталкивается конкретный пользователь.

Этот модуль будет посвящен первой из указанных трех мотиваций: пониманию и количественной оценке точности и успешности прогнозов. Это обычно называется верификацией прогнозов.

Гидрограф прогнозируемых и наблюденных значений

Есть три основные причины для проведения верификации прогнозов. Первая заключается в том, чтобы контролировать качество прогнозов, т.е. оценивать соответствие между прогнозами и наблюдениями. Вторая – в том, чтобы улучшить качество прогнозов за счет изучения сильных и слабых сторон прогностической системы, а третья – в том, чтобы иметь возможность сравнить одну прогностическую систему с другой.

пример прогноза уровня воды

«Хороший» прогноз может означать разное для разных пользователей и в разных ситуациях. Пользователь прогнозов гидрологического режима реки может задаться вопросом: «Будет ли максимальный уровень воды именно таким, как прогнозируется?»

Пример прогноза уровня воды, максимальный уровень воды

Если прогноз неправильный, будет ли фактический уровень воды выше или ниже?

Пример временных параметров прогноза уровня

Точно ли обычно прогнозируется время наступления максимального уровня воды? Если нет, тогда наступает ли фактический максимальный уровень воды раньше или позже?

пример прогноза с ошибками определения максимального уровня воды и времени его наступления

С другой стороны, прогнозист, возможно, захочет узнать дополнительную информацию, например: «Обоснованы ли наши прогнозы, даже если их точность неидеальна?» Или, иначе говоря: «Лучше ли результаты моего прогноза, чем какой-либо эталонный прогноз, например, в виде нескорректированных результатов моделирования?» В этом гипотетическом примере, для первого пика разница между максимальным наблюденным и измененным человеком прогнозным уровнями меньше, чем разница между наблюденным и смоделированнным максимальными уровнями.

Это показывает степень обоснованности по сравнению с модельным прогнозом. Во втором случае, максимальный прогнозный уровень воды, скорректированный человеком, также ближе по времени к данным наблюдений, чем модельный прогноз. То есть, прогноз, скорректированный человеком, показывает большую степень обоснованности по сравнению с модельным прогнозом.

Прогнозист может улучшить прогноз, используя верификацию прогноза, особенно в случае обнаружения систематических ошибок.

Цели верификации прогнозов:

  • Мониторинг качества
  • Уменьшение ошибки
  • Сравнение прогностических систем

Так мы можем увидеть, как прогнозист может использовать верификацию прогноза для мониторинга качества, уменьшения ошибки прогнозирования и сравнения прогностических систем.

Решение, которое невозможно представить одним числом

Дом, выставленный на продажу, – без дополнительной информации

Лица, ответственные за разработку политики, часто хотят, чтобы показатели верификации прогноза были представлены одним числом. Однако, если бы вы описывали кому-нибудь дом, достаточно ли было бы в качестве описания указать только его цену? Конечно, нет.

Дом, выставленный на продажу, с дополнительной информацией

Хотя цена и имеет значение, потенциальный покупатель захочет также получить такую информацию, как год постройки, количество комнат, размер, состояние, местоположение...

дом у ручья

и увидеть фотографию!

Точно так же при верификации гидрологических прогнозов недостаточно использовать только оценочные критерии точности, например, среднюю квадратическую погрешность, для оценки правильности гидрологического прогноза. Это важно, но не менее важны такие критерии, как систематическая ошибка, распределение данных, уровень доверия, корреляция, успешность прогноза, дискриминантная способность и достоверность.

критерии оценки, используемые в процессе верификации прогнозов

Мы надеемся, что этот модуль убедит вас в том, что для хорошей верификации прогноза обычно требуется рассмотреть несколько чисел и/или рисунков в зависимости от вида представленного прогноза и информации, которую требуется получить.

Что значит «хороший» прогноз?

Что является «хорошим» прогнозом?

прогноз уровня воды ниже критического паводочного уровня

Вернемся к простому вопросу: насколько «хорошим» является прогноз? Предположим, текущий прогноз показывает, что через 24 часа начнется стремительный подъем уровня воды в реке в течение 6 часов на 5 м до максимального уровня 20.75, что на 0.25 м ниже критического паводочного уровня.

прогноз уровня воды ниже критического паводочного уровня, отражающий диапазон неопределенности

Теперь предположим, что вода в реке поднималась точно в течение спрогнозированного времени, но максимальный уровень воды составил 21.25 м, а не 20.75 м. Это означает, что максимальный уровень воды на 0.25 м превысил критический паводочный уровень. Был ли это хороший прогноз? Конечно, ответ зависит от того, кто задает этот вопрос и в каком контексте используется сам прогноз. Прогнозист, которому известно, что измеренные максимальные уровни воды этой реки имеют значительный диапазон неопределенности, вероятно, будет считать этот прогноз хорошим.

Однако, для менеджера по чрезвычайным ситуациям, уровень воды в реке превысил критический, хотя этого не прогнозировалось.

дом и люди, строящие дамбу из мешков с песком

Учитывая серьезные последствия того, что люди не подготовились к паводку, такой прогноз можно считать плохим.

прогноз уровня воды ниже критического паводочного уровня, отражающий диапазон неопределенности

С другой стороны, предположим, что менеджеру по чрезвычайным ситуациям, благодаря статистическим данным верификации прогноза, было известно, что прогнозы максимального уровня воды иногда дают погрешность более чем полметра. Учитывая это, а также высокую степень неопределенности подобных прогнозов максимального уровня воды, должностные лица по чрезвычайным ситуациям могут решить, что прогнозируемого подъема уровня воды в пределах 0.25 м ниже критического паводочного уровня достаточно для того, чтобы инициировать подготовку к аварийной ситуации.

Виды прогнозов

Виды гидрологических прогнозов, подлежащих верификации

Виды прогнозов:

  • Детерминистские
    • С одним значением
  • Вероятностные
    • С несколькими значениями

Мы рассмотрим два вида прогнозов: детерминистский и вероятностный. Детерминистские прогнозы – это прогнозы с одним значением без информации об уровне неопределенности этого единственного значения. Вероятностные прогнозы состоят из нескольких значений или вероятности, описывающей диапазон возможных результатов.

Способ верификации прогноза зависит от его вида. Здесь мы рассмотрим простой пример различий этих видов, но мы рекомендуем вам просмотреть онлайн-материалы о вероятностных прогнозах.

Дополнительные ресурсы:
Для получения дополнительной информации об ансамблевых прогнозах, см. модуль Ансамблевое прогнозирование речного стока.

детерминистский прогноз подъема уровня воды в реке до 23 м

Пример детерминистского прогноза максимального уровня воды в реке может выглядеть примерно так: «подъем воды в реке достигнет отметки 23 м». Мы имеем прогноз с одним значением, 23 м, и с двумя возможными результатами: 1) река выйдет из берегов при достижении отметки 23 м или 2) река не выйдет из берегов при достижении отметки 23 м.

Если прогнозируется превышение важного порогового уровня, такого как критический паводочный, детерминистский прогноз не характеризует степень неопределенности. В этом случае паводок прогнозируется с подразумеваемой определенностью, поскольку прогнозируемый подъем воды до 23 м превышает критический паводочный уровень 22 м.

Детерминистский прогноз с разбивкой на категории

Оба вида прогнозов и детерминистический, и вероятностный могут выпускаться как категориальные прогнозы. Иначе говоря, мы можем разделить диапазон возможных значений на отдельные категории.

В этом примере у нас есть четыре категории: отсутствие паводка, небольшой паводок, умеренный паводок и сильный паводок. Используя пример детерминистского прогноза подъема уровня воды до 23 м, мы можем видеть, что наш категориальный прогноз соответствует небольшому паводку, поскольку 23 м попадает в категорию небольших паводков.

вероятностный прогноз с разбивкой на категории

Вероятностные прогнозы связаны с определением вероятности. В данном примере, это вероятность значений уровня воды. Если мы выразим гипотетический вероятностный прогноз с теми же прогностическими категориями, которые мы только что использовали для детерминистского прогноза, то мы можем получить что, с вероятностью 40% прогнозируемый уровень будет относиться к категории небольших паводков. Это означает, что с вероятностью 60% наблюденный уровень не попадет в категорию небольших паводков, а будет отнесен к предыдущей или следующей категории.

Вероятностный прогноз небольшого паводка отражает степень неопределенности. Детерминистский прогноз c определенностью говорил о небольшом паводке.

вероятностный прогноз с вероятностями непревышения и категориями

Теперь давайте познакомимся с понятием вероятность непревышения, которое используется в следующем разделе. В этом случае вероятность превышения уровня 26 м составляет 10%. Вероятность превышения уровня 24 м составляет 30%, что является суммарным значением вероятностей в двух категориях самых высоких уровней воды. Аналогичным образом, вероятность превышения критического паводочного уровня 22 м составляет 70%, поскольку это суммарное значение вероятностей в трех категориях самых высоких уровней воды. Наконец, вероятность достижения или превышения текущего уровня 18.5 м составляет 100%.

Вероятностный прогноз не обязательно должен быть связан с категориями. Могут быть вероятности, связанные с конкретными значениями уровня воды.

Больше информации об ансамблевом прогнозировании вы можете получить в уроке Ансамблевое прогнозирование стока

Оценочные критерии верификации прогнозов

Темы/оценочные критерии верификации

Тема
Оценочные критерии
Детерминистский прогноз        Вероятностный прогноз
Раздел
Свойства распределения Среднее значение
Дисперсия
Стандартное отклонение
ИФР
ФПРВ
МКР
ИФР
ФПРВ
МКР
Гистограмма ранжированных данных
2
Доверительные интервалы прогноза Размер выборки
Доверительный интервал
Размер выборки
Доверительный интервал
3
Корреляция Корреляционная диаграмма
Доверительный интервал
  4
Категориальные прогнозы Вероятность обнаружения события (ВОС)
Частота ложной тревоги (ЧЛТ)
Вероятность ложного обнаружения (ВЛОС)
Систематическая ошибка
Критический индекс оправдываемости (КИО)
Показатель Брайера (БП)
Показатель ранжированной вероятности (ПРВ)
5
Точность (статистика ошибок) Средняя абсолютная ошибка (САО)
Средняя квадратическая ошибка (СКО)
Средняя ошибка (СО)
Интегральная систематическая погрешность
Непрерывный показатель ранжированной вероятности (НПРВ) 6
Успешность прогноза Показатель успешности прогноза с учетом средней квадратической ошибки (УП-СКО) Показатель успешности прогноза с учетом показателя Брайера (УП-БП)
Показатель успешности прогноза с учетом показателя ранжированной вероятности (УП-ПРВ)
7
Верификация условных прогнозов Оценочные критерии достоверности
Сравнительная оперативная характеристика (СОХ)
Диаграмма достоверности
Диаграмма атрибутов
Диаграмма распознавательной способности
Сравнительная оперативная характеристика (СОХ)
8

Существует широкий спектр используемых критериев верификации прогнозов. Мы сгруппировали их на основе необходимого пользователю атрибута прогнозирования.

В рамках верификации гидрологических прогнозов Группа по системам верификации прогнозов НМС подготовила список из семи тем. В этой таблице представлены темы и соответствующие оценочные критерии верификации прогнозов. Это такие темы, как свойства распределения, доверительные характеристики, корреляция, категориальные статистические данные, точность, успешность и оправдываемость условного прогноза.

Каждая из указанных семи тем, представленная в таблице, будет подробно рассмотрена в разделах 2–8 этого модуля.

Дополнительные ресурсы:
Справочное руководство по графическим данным верификации, подготовленное Национальным подразделением по верификации прогнозов осадков (НПВПО)

Свойства распределения

Темы по верификации прогнозов

В этом разделе рассматриваются свойства распределения прогнозов и наблюдений. Это одна из семи важных тем, которые следует учитывать в процессе верификации гидрологических прогнозов.

Свойства распределения предоставляют информацию о наблюденных и прогнозируемых значениях, таких как диапазон числовых значений, экстремумы и типичные значения. Изучая свойства распределения, мы получаем информацию о разбросе значений по диапазону возможных значений

Оценочные критерии свойств распределения:

Детерминистские Вероятностные
Среднее значение
Дисперсия
Стандартное отклонение
Функция плотности распределения вероятностей (ФПРВ) и Интегральная функция распределения (ИФР) Функция плотности распределения вероятностей (ФПРВ) и Интегральная функция распределения (ИФР)
Межквартильный размах (МКР) Межквартильный размах (МКР)
Гистограмма ранжированных данных

Выбор оценочных критериев может зависеть от того, какие именно прогнозы верифицируются – детерминистские или вероятностные. В частности, при верификации вероятностных прогнозов особенно важную роль играют функция плотности распределения вероятностей, интегральная функция распределения, межквартильный размах и гистограмма ранжированных данных.

Среднее значение/дисперсия

Среднее значение, дисперсия, стандартное отклонение

Расчет среднего арифметического значения

Для верификации детерминистского прогноза общие критерии оценки разброса и распределения значений включают среднее значение, дисперсию и стандартное отклонение. Среднее значение – это сумма всех значений, разделенная на их количество. Это значение используется для расчета дисперсии и стандартного отклонения.

Расчет дисперсии/стандартного отклонения

Дисперсия характеризует разброс значений вокруг среднего значения. Она рассчитывается как среднее арифметическое квадратов отклонений значений от среднего значения. Она также называется отклонением от среднего значения. Если все значения очень близки к среднему значению, тогда дисперсия небольшая.

Стандартное отклонение – это квадратный корень из дисперсии. Оно часто используется для количественной оценки того, насколько типичным или нетипичным является конкретное значение. При условии, что распределение является нормальным, около 67% значений должны находиться в пределах одного стандартного отклонения от среднего значения, а около 95% – в пределах двух стандартных отклонений от среднего значения. Таким образом, если значение равняется двум стандартным отклонениям от среднего, то это нетипичное значение, которое встречается в 5% случаев или реже.

Конечно, распределение гидрологических переменных обычно не является нормальным. Однако, среднее значение и дисперсия, тем не менее, могут дать хорошее представление о данных.

Вопрос

1. По сравнению с рекой с постоянным стоком, ряд стока реки с существенными межгодовыми колебаниями будет иметь _____ дисперсию, хотя среднее значение _____.

Выберите наиболее правильный ответ.

Правильный ответ – a)

Выберите.

Диаграммы ФПРВ/ИФР

Функция плотности распределения вероятностей (ФПРВ) и Интегральная функция распределения (ИФР)

Функция плотности распределения вероятностей (ФПРВ) и интегральная функция распределения (ИФР) представляют собой функции вероятности некоторой непрерывной переменной. Применительно к прогнозам, они могут отображать распределение прогнозируемых значений.

Мы начнем наше обсуждение ФПРВ и ИФР, используя нормальные распределения. Затем мы перейдем к более реалистичным асимметричным распределениям, в соответствии с которыми обычно распределены гидрологические переменные.

Пример ФПРВ и ИФР

На обеих диаграммах ось X проградуирована в единицах самих данных, в данном случае в таких единицах стока, как кубические метры в секунду или кубические футы в секунду. На оси Y отображена вероятность по шкале от 0 (означает маловероятно) до 1.0 (означает вероятность 100%).

Простой пример ФПРВ и ИФР

Начнем с простого примера детерминистского прогноза, который показывает сток объемом 600 единиц стока. На диаграмме ФПРВ есть одна точка с вероятностью 1.0 при значении стока в 600 единиц. На диаграмме также показана одна вертикальная линия. На диаграмме ИФР отображена одна линия с вероятностью 0.0 для всех значений стока менее 600 единиц; далее суммарная вероятность становится равной 1.0 при значениях стока 600 единиц или более.

Диаграммы ФПРВ и ИФР:

  1. Могут быть построены на основе или вероятностных прогнозов, или множества детерминистских прогнозов с одним значением.
  2. Для нескольких прогнозов они представляют собой распределение этих прогнозов.

Однако диаграммы ФПРВ и ИФР обычно используются для более чем одного прогнозного значения. Поэтому эти кривые показывают разброс значений по мере изменения вероятности. Эти диаграммы могут быть построены на основе или вероятностных прогнозов, или множества детерминистских прогнозов с одним значением. При использовании нескольких прогнозов диаграммы ФПРВ и ИФР отражают распределение этих прогнозов.

Позже мы увидим, как можно использовать ИФР для множества прогнозируемых значений или для вероятностных прогнозов и сравним эти данные с одним наблюденным значением. Это будет положено в основу показателя, называемого показателем ранжированной вероятности.

ФПРВ с выделенным средним значением

ФПРВ показывает наиболее часто встречающиеся значения. Для этих кривых такие значения варьируются около 600 единиц.

ФПРВ, отражающая небольшое отклонение

ФПРВ также показывает, как значения распределены вокруг среднего значения. Острый узкий пик будет указывать на небольшое стандартное отклонение или очень надежные прогнозы.

ФПРВ, отражающая большее отклонение

Широкий низкий пик будет указывать на большее стандартное отклонение или бóльшую неопределенность прогноза речного стока.

ФПРВ с другим средним значением

Если пик возникает в другом месте по оси X, то это свидетельствует о другом среднем значении.

ФПРВ при нормальном распределении

Поскольку это нормальные распределения, то медианное и среднее значения равны.

Область ФПРВ под кривой интегрируется до 1.0

Область под кривой ФПРВ интегрируется до 1.0. Это важная характеристика, поскольку весь спектр данных представлен формой кривой.

Диаграмма ИФР

Соответствующая диаграмма ИФР показывает вероятность непревышения данного порогового значения стока.

Пример ИФР

Например, в соответствии с диаграммой с большим значением дисперсии вероятность того, что мы увидим значение стока объемом 900 единиц или менее, составляет 90%. Это значение также можно рассматривать как вероятность непревышения. Иначе говоря, вероятность непревышения 900 единиц стока составляет 90%.

Наибольший положительный наклон ИФР

Наибольший положительный наклон соответствует наиболее часто встречающимся значениям, диапазоны которых для этих кривых пересекаются в значении 600 единиц.

Медианное значение ИФР

Медианное значение на диаграмме ИФР соответствует вероятности непревышения 0.5, поскольку по определению медиана – это точка, относительно которой половина значений находится выше, а вторая половина – ниже.

ИФР для незначительных дисперсий

Кривые ИФР для выборок с небольшой дисперсией охватывают меньший диапазон значений на оси X и рассматриваются как кривые с более крутым подъемом.

ИФР для бóльших дисперсий

Бóльшие дисперсии представлены менее крутыми кривыми и охватывают бóльший диапазон значений на оси X.

Реальные диаграммы ФПРВ/ИФР

Конечно же, реальные диаграммы ИФР и ФПРВ не так просты, поскольку гидрологические переменные, например, расход воды, не характеризуются нормальным распределением. Диаграмма ФПРВ реальных значений стока, вероятно, будет характеризоваться большим разбросом значений в верхней части.

Обратите внимание, что иногда на оси Y на диаграмме ФПРВ представляют повторяемость. Это просто вероятность, умноженная на размер выборки.

Диаграмма ФПРВ стока реки

Медианное и среднее значения не равны друг другу при асимметричном распределении. Помните, что медиана – это точка, относительно которой одна половина значений находится выше, а вторая половина – ниже. Поскольку значения расхода смещены вверх, в сторону бóльших значений, медианное значение 350 единиц стока находится в нижней части их возможного диапазона, который составляет примерно от 50 до 1050 единиц стока. Как видно, при асимметричных распределениях, среднее значение, которое в этом примере составляет около 440 единиц стока, отличается от медианного. В нашем случае среднее значение превышает медианное, что свойственно многим рядам данных речного стока. И, как и в случае с медианным значением, разница между средним и максимальным стоком значительнее, чем между средним и экстремально низким стоком.

ФПРВ стока в реке с вероятностью

Поскольку асимметричность разброса значений меньше влияет на медианное значение, то его часто считают более репрезентативным для набора данных, чем среднее значение.

Диаграмма ИФР стока реки

Форма диаграммы ИФР, которая соответствует диаграмме ФПРВ, приведенной ниже, показывает смещение в сторону более высоких значений стока. В левой части диаграммы наклон кривой больше на участке с наиболее часто встречающимися значениями стока. В правой части диаграммы кривая становится более пологой на участке с реже всего встречающимися высокими значениями стока. Обратите внимание, что на этой диаграмме также нанесены средние и медианные значения.

Диаграммы ФПРВ и ИФР стока реки

При совместном рассмотрении диаграмм ФПРВ и ИФР, можно заметить взаимосвязь. Часто встречаемые значения, отображенные на диаграмме ФПРВ, соответствуют крутому наклону кривой на диаграмме ИФР. Длинный хвост правой части кривой ФПРВ соответствует участку кривой ИФР со сглаженным наклоном.

Диаграммы ФПРВ и ИФР стока реки

Вопрос 1 из 3

Чтобы ответить на этот вопрос, обратитесь к диаграмме ФПРВ выше.

Какое из следующих значений стока имеет наибольшую вероятность?

Выберите наиболее правильный ответ.

Правильный ответ - б.

Выберите.

Вопрос 2 из 3

Чтобы ответить на этот вопрос, обратитесь к диаграмме ФПРВ выше.

Сток с наибольшей вероятностью на диаграмме ФПРВ всегда соответствует _____ на диаграмме ИФР.

Выберите наиболее правильный ответ.

Правильный ответ - г, самому крутому участку

Пики на кривой ФПРВ соответствуют быстрому увеличению вероятности (крутой наклон) на кривой ИФР. Хотя по этой диаграмме кажется, что правильным ответом может быть «б», это неверно для всех выборок. Для сильно асимметричных выборок медиана может быть более явно смещена в сторону от максимальной вероятности. Единственным правильным ответом для всех выборок является «г».

Выберите.

Вопрос 3 из 3

Чтобы ответить на этот вопрос, обратитесь к диаграмме ФПРВ выше.

Посмотрите на кривую ИФР, какой процент значений стока оказался ниже медианного значения?

Выберите наиболее правильный ответ.

Правильный ответ - в, 50

По определению медиана – это значение, относительно которого половина значений выборки находится выше, а вторая половина – ниже. Ее считают более репрезентативной характеристикой данных, чем среднее значение.

Выберите.

Межквартильный размах (МКР)

Межквартильный размах (МКР)

  • Стандартное отклонение не подходит для асимметричных распределений
  • Использование межквартильного размаха (МКР)

Поскольку распределение гидрологических переменных редко соответствует нормальному, использование таких оценочных критериев, как дисперсия и стандартное отклонение, может ввести в заблуждение. Межквартильный размах, или МКР, можно использовать для характеристики асимметрично распределенных данных.

Пример межквартильного размаха (МКР)

Здесь значение 250 единиц стока – это первый квартиль, К1, или 25-й процентиль. Слева расположено 25% значений выборки, наименьшие из них. Иначе говоря, если бы было 100 значений, это было бы 25 точек, соответствующих самым низким значениям. Значение 600 единиц стока – это третий квартиль, К3, или 75-й процентиль. Справа расположено 25% значений выборки, наибольшие из них.

МКР охватывает средние 50% значений, находящихся между К1 и К3 или, иначе говоря, между 250 и 600 единицами стока. МКР представляет собой разность между первым и третьим квартилями: МКР = К3 – К1. В этом примере МКР составляет 350 (600 минус 250).

Диаграмма типа «ящик с усами»

Распределения, связанные с МКР, обычно изображаются в виде диаграммы типа «ящик с усами». По оси Y представлены значения данных, а по оси X, как правило, заблаговременность прогноза. «Ящик» представляет межквартильный размах, где медиана показана горизонтальной линией. Усы представляют 25% значений верхнего и нижнего пределов за МКР. Концы усов соответствуют максимальному и минимальному значениям. Поскольку в нашем примере с рекой значения имеют тенденцию смещения в сторону более высоких значений, то, обратите внимание, что и ус выше «ящика» длиннее.

Диаграмма типа «ящик с усами», составленная НУОА (NOAA)

Здесь представлена диаграмма типа «ящик с усами», отражающая объем талых вод (в тысячах акро-футов) на реке Юба недалеко от г. Смартвилл, Калифорния.

Вопрос 1 из 2

Каковы общие тенденции распределения данных?

Выберите все правильные ответы.

Правильные ответы - в и г.

Выберите.

Вопрос 2 из 2

Что можно сказать о данных, представляющих прогнозируемый объем талых вод (в тысячах акро-футов) в июне 2008 года?

Выберите все правильные ответы.

Правильные ответы - а и в.

Выберите.

Гистограмма ранжированных данных

  • Вероятностные прогнозы часто связаны с ансамблевыми прогнозами, например с системой Ансамблевого прогнозирования речного стока.
  • Ансамблевый разброс – диапазон возможных значений ансамблевого прогноза.
  • Что считается адекватным ансамблевым разбросом?
    • Использование гистограммы ранжированных данных

При составлении вероятностных прогнозов мы часто имеем дело с ансамблевыми прогнозами, например, прогнозами, составленными системой Ансамблевого прогнозирования речного стока.

Диапазон прогнозируемых значений в ансамблевом прогнозе называется ансамблевым разбросом.

Что считается адекватным ансамблевым разбросом? Чтобы ответить на этот вопрос, мы используем гистограмму ранжированных данных, которую иногда называют диаграммой Талаграна.

Гистограмма ранжированных данных (Рисунок 1)

В самом простом случае мы имеем один элемент ансамбля, связанный с двумя интервалами прогноза, один из которых больше, а другой – меньше прогнозируемого значения. Это детерминистский прогноз.

Гистограмма ранжированных данных (Рисунок 2)

Теперь предположим, что у нас есть две пары прогноз–наблюдение. В идеально откалиброванной ансамблевой системе одно наблюденное значение попадет в верхний интервал, а другое – в нижний.

Гистограмма ранжированных данных (Рисунок 3)

Если бы у нас было два элемента ансамбля, тогда было бы три интервала прогноза. Два из трех интервалов прогноза окажутся за пределами ансамблевого разброса. Средний интервал охватывает диапазон между указанными двумя элементами ансамбля.

Гистограмма ранжированных данных (Рисунок 4)

Теперь предположим, что у нас есть три наблюденных значения. В идеально откалиброванной ансамблевой системе одно наблюденное значение попадет в верхний интервал, другое – в средний, а третье – в нижний. Значение, попавшее в средний интервал, находится в пределах ансамблевого разброса.

Гистограмма ранжированных данных (Рисунок 5)

При наличии пяти элементов ансамбля и, следовательно, шести интервалов прогноза, два из шести интервалов прогноза вышли бы за пределы ансамблевого разброса. Теперь предположим, что у нас есть шесть наблюденных значений. Нам нужно одно наблюденное значение в верхнем интервале, по одному в каждом из четырех средних интервалов и одно в нижнем интервале. Четыре значения, попавшие в средний интервал, находятся в пределах ансамблевого разброса.

Для любого хорошо калиброванного ансамблевого прогноза процент наблюдений, которые должны выходить за пределы ансамблевого разброса, равен частному от деления 2-х на количество интервалов.

Вопрос

Итак, при наличии 39 элементов ансамбля, и, соответственно, 40 интервалов прогноза, какой процент наблюдений должен выходить за пределы ансамблевого разброса в хорошо откалиброванной системе?

Выберите наиболее правильный ответ.

Правильный ответ - а, 5%

В хорошо откалиброванной системе в каждом интервале будет одинаковое число случаев. Таким образом, процентное значение, выходящее за пределы ансамблевого разброса, рассчитывается следующим образом: 2 делим на количество интервалов, равное 40, получаем 0.05, или 5%.

Выберите.
Объяснение гистограммы ранжированных данных

В действительности каждый интервал прогноза обычно охватывает более одного наблюденного значения. Рассмотрим ансамблевый прогноз стока из 5 элементов. В этом примере мы будем использовать целочисленные прогнозные значения стока. Ансамбль состоит из следующих элементов: 210, 200, 330, 150 и 260 единиц.

Объяснение гистограммы ранжированных данных

Чтобы построить гистограмму ранжированных данных, мы сначала упорядочиваем элементы ансамбля, в данном случае от самого низкого до самого высокого значения, в результате чего получаем 6 интервалов значений: меньше 150, 150 – 199, 200 – 209, 210 – 259, 260 – 329, а также значений, превышающих или равных 330.

Обратите внимание, что полученные интервалы охватывают неравные диапазоны значений. Например, диапазон значений интервала 3 содержит только числа от 200 до 209, тогда как интервал 5 охватывает гораздо больший диапазон: от 260 до 329.

Объяснение гистограммы ранжированных данных

Но в хорошо откалиброванной системе прогнозов вероятность попадания в каждый интервал одинакового числа наблюдений одинакова. Таким образом, вероятность того, что значение стока будет находиться в интервале 200-209, равна вероятности того, что значение стока будет находиться в интервале 260-329.

Объяснение гистограммы ранжированных данных

Наблюдения попадают в соответствующий интервал.

Объяснение гистограммы ранжированных данных

В этом случае мы имеем разное количество наблюдений в каждом интервале.

Объяснение гистограммы ранжированных данных

Итак, теперь перед нами гистограмма, показывающая повторяемость наблюдений на интервал прогноза. Например, гистограмма показывает, что в интервал 1 попало три наблюдения со значениями меньше 150.

Объяснение гистограммы ранжированных данных

Дальше мы создаем ось Y, на которой показываем повторяемость наблюдений. Теперь мы имеем гистограмму ранжированных данных, которую некоторые также называют диаграммой Талаграна.

Часто на оси Y показывают значения повторяемости, разделенной на ожидаемую повторяемость.

Примеры диаграммы Талаграна

Тогда как следует интерпретировать гистограмму ранжированных данных? Гистограмма ранжированных данных предоставляет информацию о распределении наблюдений, связанных с ансамблевыми прогнозами. Давайте посмотрим на некоторые идеализированные гистограммы ранжированных данных.

Плоская гистограмма Талаграна

Идеальное распределение наблюдений в ансамблевых прогнозах показало бы одинаковую повторяемость для каждого интервала. И, если по оси Y показано отношение повторяемости к ожидаемой повторяемости, то каждый столбец диаграммы будет иметь высоту 1.0.

Примеры U-образной диаграммы Талаграна

Если гистограмма ранжированных данных имеет U-образную форму, это говорит о том, что слишком много наблюдений со значениями, близкими к экстремальным. Ансамблевый разброс слишком мал и должен быть больше.

Примеры перевернутой U-образной диаграммы Талаграна

И наоборот, что если бы гистограмма ранжированных данных имела перевернутую U-образную форму или форму купола? Это свидетельствовало бы о недостатке наблюдений со значениями, близкими к экстремальным. Ансамблевый разброс слишком большой и должен быть меньше.

Примеры диаграммы Талаграна – нарастающая наклонная

Если гистограмма ранжированных данных показывает увеличение повторяемости вправо и принимает вид повышающейся наклонной, это указывает на то, что наблюдения слишком часто находятся в верхней части ансамблевого разброса и прогнозные значения занижены.

И наоборот, если гистограмма ранжированных данных показывает увеличение повторяемости влево и принимает вид ниспадающей наклонной или форму буквы «L», это указывает на то, что наблюдения слишком часто находятся в нижней части ансамблевого разброса, и прогнозные значения завышены.

В отношении гистограмм ранжированных данных важно отметить, что они требуют большого количества пар прогноз – наблюдение. Гистограммы ранжированных данных, созданные для меньшего, чем количество элементов ансамбля, количества пар, по сути, являются бесполезными.

Контрольный вопрос

Вопрос

Диаграмма Талаграна для расходов воды отображает ситуацию, когда ансамблевый разброс в прогнозах слишком мал.

Как бы вы интерпретировали эту гистограмму ранжированных данных с точки зрения того, насколько правильным является ансамблевой разброс и что он говорит о прогнозах?
Выберите все подходящие варианты.

Правильные ответы - а и в.

U-образная форма указывает на то, что ансамблевый разброс слишком мал, поскольку более высокая повторяемость данных наблюдений в крайних диапазонах. Это особенно заметно в верхней части гистограммы, что свидетельствует о том, что наблюдается больше значений максимального стока, чем прогнозируется ансамблевым прогнозом, то есть прогноз занижает значения.

Выберите.

Доверительные характеристики прогнозов

Темы по верификации прогнозов

В этом разделе рассматриваются критерии оценки доверительных характеристик прогнозов. Это один из семи важных аспектов, которые следует учитывать в процессе верификации гидрологических прогнозов.

Статистические данные о доверительных характеристиках прогноза позволяют оценить степень определенности того, что прогнозируемые значения попадут в ожидаемый диапазон значений. Степень доверия прогноза зависит от количества выборок в наборе данных.

Критерии оценки доверительных характеристик прогноза:

Детерминистский прогноз Вероятностный прогноз
Размер выборки Размер выборки
Доверительный интервал Доверительный интервал

Оценочные критерии, описанные в этом разделе, применяются к верификации как детерминистских, так и вероятностных прогнозов.

Размер выборки

  • Количество пар прогноз–наблюдение, которые будут использоваться
  • Минимальное количество выборок, необходимых для оценки доверительных характеристик прогноза
  • Чем больше размер выборки, тем больше вероятность того, что будет представлен весь диапазон возможных значений.

Размер выборки обозначает количество пар прогноз–наблюдение, используемых в конкретном методе верификации. Выборка играет важную роль. Она предполагает, что подмножеством (или выборкой), используемым(-ой) для конкретных вычислений, представлен больший набор данных. В наборе данных есть минимальное количество выборок, необходимое для обеспечения определенных доверительных характеристик прогнозов. Чем больше размер выборки, тем больше вероятность того, что данные будут представлять полный диапазон возможных значений.

Прогнозный гидрограф, отражающий неопределенность

Например, при прогнозе сильного паводка, степень неопределенности больше, поскольку сильные паводки обычно не часто попадают в выборку. Небольшой размер выборки часто приводит к большей неопределенности в статистических данных верификации и, как следствие, к снижению доверительных характеристик прогноза.

Влияние размера выборки на понимание поведения реки

Если имеются данные наблюдений за стоком реки на протяжении 100 лет, то велика вероятностью того, что ее поведение понятно. Неопределенность уменьшается, а доверительные характеристики прогноза повышаются. И наоборот, если речной сток наблюдался только в течение 20 лет, вероятность того, что в выборку попали все значения возможного диапазона стока меньше, чем в случае со стоком, наблюдаемым в течение 100 лет. Недостаточный охват диапазона возможных значений приводит к большей неопределенности в прогнозах.

Влияние размера выборки на понимание поведения реки

Вопрос

Рассмотрите этот 20-летний период из нашего более длинного ряда наблюдений. Как вы думаете, почему свойства выборки данных могут затруднить понимание поведения реки?

Выберите все подходящие варианты.

Правильные ответы - в и г.

На реке не происходило паводков. На реке также не наблюдался экстремально низкий сток. Поэтому указанный 20-летний период не является репрезентативным в отношении поведения реки, которое мы видим по данным более долгосрочных наблюдений.

Выберите.

Доверительный интервал

  • Доверительный интервал: диапазон значений, который включает истинное значение
  • Доверительный уровень: заданная вероятность с доверительным интервалом
  • Доверительный интервал и доверительный уровень помогают выразить неопределенность прогноза

Доверительный интервал позволяет выразить прогноз через диапазон значений, который включает наблюденное или истинное значение с заданной вероятностью. Заданная вероятность известна как доверительный уровень. Таким образом выражается неопределенность.

фото тающего снега

Следовательно, прогноз может звучать так: «вероятность того, что максимальный расход талых вод составит 800–1000 кубометров в секунду (м3/c), равняется 95%».

Доверительный интервал – это диапазон значений от 800 до 1000, а доверительный уровень составляет 95%.

Вопрос

Согласно прогнозу уровня воды в реке, вероятность того, что максимальный уровень будет между 16 и 20 м, составляет 95%.

Доверительный интервал составляет _____, а доверительный уровень – _____.

Выберите наиболее правильный ответ.

Правильный ответ - а, 16-20 м | 95%

Выберите.

Компромисс

Компромисс между доверительным интервалом (ДИ) и доверительным уровнем

Существует компромисс между доверительным уровнем и доверительным интервалом. Желаемый прогноз должен иметь доверительный уровень 100% и доверительный интервал ± 0. Это означает абсолютную уверенность в том, что будет получено одно точное значение.

Нежелательным прогнозом будет прогноз, связанный с низким доверительным уровнем и большим доверительным интервалом. Это может означать, что доверительные характеристики прогноза являются очень низкими, несмотря на то, что прогноз имеет большой диапазон значений, которые можно подтвердить как верные. Иначе говоря, это все равно, что сказать, что вы на 10% уверены в том, что максимальный расход талых вод будет составлять от 100 – 1000 м3/с.

Мы хотим, чтобы прогнозы имели высокий доверительный уровень и небольшой доверительный интервал. Обычно этого можно добиться при работе с выборками большого размера

Вопрос

Вернемся к нашему прогнозу 95%-ной вероятности максимального уровня воды в пределах 16-20 метров. Допустим, мы хотим, чтобы доверительный уровень составлял 99%. В идеале, как должен измениться наш доверительный интервал 16-20 метров?

Выберите наиболее правильный ответ.

Правильный ответ - в, диапазон уменьшится.

Выберите.

Доверительный интервал (ДИ) для статистических оценок

Доверительный интервал для статистических оценок

  • Критерии оценки доверительных характеристик статистических данных
    • 95%-ная вероятность того, что средняя квадратическая ошибка находится между 15 и 18 м3/с
  • Небольшой размер выборки >> бóльшая степень неопределенности
    • Бóльшая степень неопределенности >> меньший уровень доверия

Помимо доверительного интервала прогнозов существуют также доверительные интервалы статистических оценок. Статистический доверительный интервал выражает вероятность того, что статистическая оценка попадает в указанные пределы. Такие оценочные показатели могут выглядеть примерно так: «вероятность того, что средняя квадратическая ошибка прогнозов стока составит от 15 до 18 м3/c, равняется 95%».

Небольшая выборка пар прогноз–наблюдение не может надлежащим образом отражать весь диапазон возможных условий на основе случайной вероятности. Уровень неопределенности статистических оценок верификации больше для выборки небольшого размера. Бóльшая неопределенность данных в процессе верификации связана с меньшим уровнем доверия к прогнозу.

Корреляция

Темы по верификации прогнозов

В этом разделе рассматриваются оценочные критерии корреляции, а также то, какое отношение они имеют к верификации гидрологических прогнозов. Корреляция является одной из семи важных тем, которые следует рассматривать при верификации гидрологических прогнозов.

Корреляция позволяет оценить степень взаимосвязи двух переменных, в нашем случае прогнозов и наблюдений.

Оценочные критерии корреляции:

Детерминистский прогноз Вероятностный прогноз
Корреляционная диаграмма
Коэффициент корреляции

Этот раздел касается исключительно верификации детерминистских прогнозов.

Понятие

Понятие корреляции

Взаимосвязь между прогнозным и фактическим гидрографом

Корреляция – это взаимосвязь, показывающая насколько хорошо модели и тенденции прогнозов соответствуют данным наблюдений. Прогнозы с высокой степенью корреляции могут быть точными. Однако прогноз может хорошо коррелировать с данными наблюдений, но все же быть неточным. Например, на представленных гидрографах максимумы и минимумы прогнозов и наблюдений соответствуют друг другу по времени наступления, но наблюденные значения отличаются от прогнозных. Прогнозные значения систематически оказываются слишком низкими. В этом случае прогнозы и наблюдения хорошо коррелируют, но прогнозы содержат систематические ошибки.

Корреляционная диаграмма

Образец корреляционной диаграммы

Корреляционная диаграмма – это быстрый способ увидеть взаимосвязь между двумя переменными. В прогнозировании этими двумя переменными обычно являются прогнозные и наблюденные значения. Существует несколько видов корреляционных диаграмм. Чаще всего прогнозные значения откладывают по оси Y, а наблюденные – по оси X. Чем ближе выстраиваются точки вдоль диагональной линии с положительным наклоном, тем больше положительная корреляция между наблюденными и прогнозными значениями.

Коэффициент корреляции

Диаграмма корреляции Пирсона

Коэффициент корреляции Пирсона измеряет тесноту линейной связи между прогнозируемыми и наблюденными значениями. Другими словами, когда прогнозируемые значения увеличиваются, увеличиваются ли наблюденные значения? Когда прогнозируемые значения максимальны, максимальны ли наблюденные значения?

Значения коэффициента корреляции изменяются в диапазоне от -1 до +1. Значение 1.0 указывает на полную корреляцию. Значение 0.0 указывает на отсутствие корреляции; это означает отсутствие статистической связи между прогнозируемыми и наблюденными значениями. Значение -1.0 указывает на полную отрицательную корреляцию; это означает, что высоким прогнозируемым значениям всегда соответствуют низкие наблюденные значения.

Корреляционные диаграммы, показывающие разные виды корреляций

Коэффициент корреляции – это численная мера корреляции. Корреляционные диаграммы графически демонстрируют корреляцию. Давайте посмотрим, как будут выглядеть корреляционные диаграммы наблюденных и прогнозируемых значений стока для разных коэффициентов корреляции.

Пример корреляции – отсутствие корреляции

Эта корреляционная диаграмма показывает отсутствие взаимосвязи между прогнозируемыми и наблюденными значениями; коэффициент корреляции равен 0.0.

Пример корреляции – слабая корреляция

На этой диаграмме показана слабая положительная корреляция. Другими словами, есть диагональная линия с положительным наклоном, которую можно провести на корреляционной диаграмме, хотя вокруг этой линии имеется большой разброс. В этом случае коэффициент корреляции – небольшое положительное число.

Пример корреляции – сильная корреляция

На следующей корреляционной диаграмме показаны точки, выстраивающиеся рядом с диагональной линией с положительным наклоном. Это свидетельствует о значительной корреляции между прогнозируемыми и наблюденными значениями: коэффициент корреляции является положительным числом, близким к 1.0.

Пример корреляции – отрицательная корреляция

На последней корреляционной диаграмме показаны точки, выстраивающиеся вдоль диагональной линии с отрицательным наклоном. Это указывает на отрицательную корреляцию между прогнозируемыми и наблюденными значениями, в данном случае значение коэффициента корреляции стремится к – 1.0.

Контрольные вопросы

Образец корреляционной диаграммы

Рассмотрите эту корреляционную диаграмму, показывающую взаимосвязь между наблюдаемыми и прогнозируемыми уровнями воды.

Вопрос 1 из 2

Что можно сказать о корреляции, представленной на диаграмме?

Выберите наиболее правильный ответ.

Правильный ответ - б.

Выберите.

Вопрос 2 из 2

Что можно сказать об ошибке?

Выберите наиболее правильный ответ.

Правильный ответ - г.

Выберите.

Категориальные прогнозы

Темы по верификации прогнозов

В этом разделе рассматривается верификация категориальных прогнозов. Верификация категориальных прогнозов является одной из семи важных тем, которые следует рассматривать при верификации гидрологических прогнозов.

Корреляция позволяет оценить степень взаимосвязи двух переменных, в нашем случае прогнозов и наблюдений.

Оценочные критерии категориальных прогнозов:

Детерминистский прогноз Вероятностный прогноз
Вероятность обнаружения события (ВОС/POD)
Частота ложной тревоги (ЧЛТ/FAR)
Вероятность ложного обнаружения события (ВЛОС/POFD)
Систематическая ошибка прогноза
Критический индекс оправдываемости (КИО/CSI)
Показатель Брайера (ПБ/BS)
Показатель ранжированной вероятности (ПРВ/RPS)

Методологии верификации категориальных прогнозов могут применяться как к детерминистским, так и к вероятностным прогнозам. Одни показатели используются специально для верификации детерминистских прогнозов, другие – для верификации вероятностных прогнозов.

Детерминистские/Вероятностные прогнозы

Мы рассмотрим примеры как детерминистских, так и вероятностных прогнозов для поста, на котором паводочный уровень равен 22 м.

Пример водомерного поста

Допустим, что, согласно детерминистскому прогнозу, уровень воды поднимется до максимальной отметки 22.1 м, что на 0.1 м выше паводочного уровня.

Если наблюденный максимальный уровень воды составлял всего 21.9 м, то паводок не наблюдался, поскольку наблюденный уровень на 0.1 м ниже паводочного. В этом случае прогнозное значение попадет под параметры паводка, а наблюдаемое значение – под параметры отсутствия паводка.

Несмотря на то, что детерминистский прогноз был очень близок к наблюдаемому значению уровня воды, при использовании порогового значения категориального прогноза, превышающего паводочный уровень или равного ему, прогноз будет считаться ложной тревогой.

Пример водомерного поста – вероятностный прогноз

Теперь рассмотрим вероятностный прогноз для аналогичной ситуации. Наш вероятностный прогноз говорил о том, что вероятность того, что паводочный уровень 22 м не будет достигнут, составляет 40%, тогда как вероятность паводка при уровне воды от 22 м и выше, составляет 60%.

Как и при верификации детерминистского прогноза, мы хотим сравнить эти вероятностные прогнозы с данными наблюдений. Но одно единственное наблюдаемое значение не входит в диапазон вероятностей. Событие либо произошло, либо нет. Поэтому мы используем вероятность 100% для наступления наблюдаемого события или 0% для ненаступления наблюдаемого события. Таким образом, в нашем случае, если паводочный уровень 22 м был достигнут или превышен, то по результатам наблюдения было бы установлено, что вероятность паводка составляет 100%. Однако наблюденный нами максимальный уровень воды 21.9 м немного не достиг паводочного уровня, и, таким образом, вероятность паводка составляет 0%. Вместо полностью ложной тревоги, как мы видели на примере детерминистского прогноза, в вероятностном прогнозе вероятность того, что уровень воды будет ниже паводочного, составляла 40%, что и наблюдалось.

Критерий сопряженности

Таблица сопряженности 2x2

Таблицы сопряженности используются для описания распределения прогнозируемых и наблюденных значений с точки зрения их повторяемости для различных категорий. Для верификации с двумя категориями обычно используется таблица сопряженности 2x2. Она представляет собой конфигурацию данных типа «Да/Нет»; например; «паводок/отсутствие паводка».

В этой простой таблице сопряженности строки представляют собой категории прогнозов, а столбцы – категории наблюдений. В категории «паводок/отсутствие паводка» «Да» означает или наблюденный и/или прогнозируемый «паводок». «Нет» означает или наблюденное и/или прогнозируемое «отсутствие паводка». Ячейка «а» обозначает количество наблюденных паводков, которые были правильно спрогнозированы, или долю «попаданий». Ячейка «b» обозначает количество несбывшихся прогнозов наступления паводка или ложную тревогу. Ячейка «c» обозначает количество наблюденных паводков, которые не ожидались по прогнозам, или «долю промахов». Ячейка «d» обозначает количество правильно спрогнозированных случаев ненаступления паводка, или правильные отрицательные результаты прогноза. «a+c» и «b+d» означает общее количество наблюденных паводков и случаев ненаступления паводка соответственно. «a+b» и «с+d» означает общее количество прогнозируемых паводков и случаев ненаступления паводка соответственно.

Продолжение Показатели таблицы сопряженности

Таблица сопряженности 2x2
  • Вероятность обнаружения события (ВОС/POD)
    • Доля попаданий или успешно спрогнозированных событий
    • Доля наблюденных паводков, которые были правильно спрогнозированы
    • ВОС = a/(a+c)
    • от 0 (наихудшее значение) до 1 (наилучшее значение)
  • Частота ложной тревоги (ЧЛТ/FAR)
    • Доля спрогнозированных паводков, прогнозы которых, по результатам наблюдений, не оправдались
    • ЧЛТ = b/(a+b)
    • от 0 (наилучшее значение) до 1 (наихудшее значение)

Два общих оценочных показателя – это вероятность обнаружения события, ВОС, и частота ложной тревоги (ЧЛТ/FAR).

ВОС или доля попаданий или успешно спрогнозированных событий, в случае паводка/отсутствия паводка – это доля наблюденных паводков, которые ожидались по прогнозам. Из таблицы сопряженности 2x2 ВОС рассчитывается по следующей формуле: a/(a+c). ВОС может варьироваться от 0 в наихудшем случае до 1 или 100% в наилучшем случае.

Частота ложной тревоги (ЧЛТ/FAR) в нашем случае – это доля спрогнозированных паводков, прогнозы которых, по результатам наблюдений, не оправдались. ЧЛТ рассчитывается по следующей формуле: b/(a+b). Наилучшее значение 0, а наихудшее равно 1.

  • Критический индекс оправдываемости (КИО/CSI)
    • Доля правильно спрогнозированных паводков от общего числа спрогнозированных или наблюденных паводков.
    • КИО=a/(a+b+c)
    • от 0 (наихудшее значение) до 1 (наилучшее значение)
  • Вероятность ложного обнаружения события (ВЛОС/POFD)
    • Вероятность прогнозирования паводка, который по результатам наблюдения не имел места
    • ВЛОС = b/(b+d)
    • от 0 (наилучшее значение) до 1 (наихудшее значение)
    • ВЛОС иногда называют долей ложных срабатываний, что НЕ то же самое, что частота ложной тревоги (ЧЛТ/FAR)
  • Систематическая ошибка прогноза
    • Отношение всех прогнозируемых паводков ко всем наблюденным паводкам
    • Систематическая ошибка прогноза = (a+b)/(a+c)
    • от 0 (небольшая ошибка) до 1 (наилучшее значение) до бесконечности (большая ошибка)

Часто вычисляют критический индекс оправдываемости, КИО/CSI, вероятность ложного обнаружения события, ВЛОС/POFD, и систематическую ошибку прогноза.

КИО иногда называют оценкой угрозы. В случае двух категорий, а именно наличия и отсутствия паводков, это доля правильно спрогнозированных паводков от общего числа всех наблюденных или спрогнозированных паводков. Это способ сосредоточиться на оправдываемости прогнозов редких событий, без преобладания в статистической оценке правильно спрогнозированных негативных событий. Например, это может быть полезно при верификации прогнозов сильных паводков.

На основе таблицы сопряженности КИО/CSI рассчитывается по следующей формуле: a/(a+b+c). Это значение может варьироваться от 0 в наихудшем случае до 1 в наилучшем случае.

ВЛОС/POFD – это доля наблюденных случаев отсутствия паводка, который, по прогнозам, должен был наступить. Она рассчитывается по формуле: b/(b+d). Это значение может варьироваться от 0 в наилучшем случае до 1 в наихудшем. Иногда ВЛОС называют долей ложных срабатываний, но ее не следует путать с частотой ложной тревоги (ЧЛТ/FAR).

Систематическая ошибка прогноза в нашем случае равняется отношению общего количества прогнозируемых паводков к общему количеству наблюденных паводков, или (a+b)/(a+c). Значение может варьироваться от нуля до бесконечности. Идеальным считается значение, равное 1. Оно свидетельствует об отсутствии систематической ошибки прогноза. Другими словами, количество наблюденных паводков совпадает с количеством прогнозируемых паводков. Значения <1 указывают на то, что паводки наблюдались чаще, чем прогнозировались. Значения> 1 указывают на то, что паводки прогнозировались чаще, чем наблюдались.

Пример таблицы сопряженности 2x2
Значение Таблица Формула Критерии Описание
Вероятность обнаружения события (доля попаданий или успешно спрогнозированных событий) ВОС ВОС = a/(a+c) от 0 (наихудшее значение) до 1 (наилучшее значение) Доля наблюденных паводков, которые были правильно спрогнозированы
Частота ложной тревоги (ЧЛТ/FAR) ЧЛТ ЧЛТ = b/(a+b) от 0 (наилучшее значение) до 1 (наихудшее значение) Доля спрогнозированных паводков, прогнозы которых, по результатам наблюдений, не оправдались
Критический индекс оправдываемости (КИО) КБР КИО= a/(a+c) от 0 (наихудшее значение) до 1 (наилучшее значение) Доля правильно спрогнозированных паводков от общего числа спрогнозированных или наблюденных паводков.
Вероятность ложного обнаружения события (доля ложных срабатываний) ВЛОС ВЛОС = b/(b+d) от 0 (наилучшее значение) до 1 (наихудшее значение) Доля ненаступивших паводков, которые по прогнозам должны были наступить
Систематическая ошибка прогноза Систематическая ошибка прогноза = (a+b)/(a+c) от 0 (небольшая ошибка) до 1 (наилучшее значение) до бесконечности (большая ошибка) Отношение всех прогнозируемых паводков ко всем наблюденным паводкам

Итак, рассмотрим нашу таблицу сопряженности, где «да» указывает на наступление паводка, а «нет» – на отсутствие паводка.

Какими будут следующие значения?

Выберите наиболее правильный ответ для каждого вопроса.

Таблица сопряженности 3x3 Таблица

Таблица сопряженности 3x3

Числовая таблица сопряженности 3x3

В гидрологии часто возникает необходимость определить более двух категорий. Например, возможно, нам понадобится три категории стока. Это могут быть такие категории: первая – сток объемом меньше 20 единиц, вторая – сток объемом от 20 до 25 единиц, а третья – сток объемом выше 25 единиц. С этими тремя категориями мы построим таблицу сопряженности 3x3. Вместо обозначения столбцов и строк словами «Да/Нет», для разных категорий используются числовые значения. Строки по-прежнему обозначают категории прогнозов, а столбцы – категории наблюдений.

Пример таблицы сопряженности 3x3

Три указанных в таблице категории можно выразить по-разному. Например, для отображения числовых пороговых значений можно использовать качественные пороговые значения, такие как «ниже», «в пределах» и «выше» определенного уровня.

В случае точных прогнозов данные наблюдений соответствуют результатам прогнозов, все пары прогноз–наблюдение будут располагаться по диагонали, обозначенной буквами a, e и i.

А как насчет традиционных оценочных показателей, таких как ВОС и ЧЛТ? Во-первых, нам необходимо выбрать, верификацию какой категории мы проводим. Предположим, мы проводим верификацию стока для категории «в пределах». Тогда ВОС для категории «в пределах» = e/(b+e+h). ЧЛТ для категории «в пределах» = (d+f)/(d+e+f).

Пример таблицы сопряженности 3x3
  • Используйте таблицу сопряженности 3x3 для соотношений превышения прогнозируемыми значениями наблюденных значений и для соотношений превышения наблюденными значениями прогнозируемых значений.
  • Доля превышения прогнозируемыми значениями наблюденных значений для категории «в пределах» = h/(b+e+h)

Вопрос 1 из 2

Чтобы ответить на этот вопрос, обратитесь к рисунку выше.

Какова будет вероятность обнаружения события (ВОС) для стока, превышающего пороговое значение максимального стока (ВОС для категории «выше»)?

Выберите наиболее правильный ответ для каждого вопроса.

Правильный ответ - г, i/(c+f+i)

Выберите.

Также мы можем рассчитать долю превышения прогнозируемыми значениями наблюденных значений и долю превышения наблюденными значениями прогнозируемых значений. Для этого примера используем категорию «в пределах». Итак, мы хотим знать, какая доля наблюдений в нашей категории «в пределах» прогнозировалась как относящаяся к категории «выше» (превышение прогнозируемыми значениями наблюденных значений), а какая доля наблюдений прогнозировалась как относящаяся к категории «ниже» (превышение наблюденными значениями прогнозируемых значений)?

  • Доля превышения прогнозируемыми значениями наблюденных значений = h/(b+e+h).

Вопрос 2 из 2

Чтобы ответить на этот вопрос, обратитесь к рисунку выше.

Какова будет доля превышение наблюденными значениями прогнозируемых значений в категории «в пределах»?

Выберите наиболее правильный ответ для каждого вопроса.

Правильный ответ – б, b/(b+e+h)

Выберите.

ПБ в сравнении с ПРВ

Показатель Брайера (ПБ) в сравнении с показателем ранжированной вероятности (ПРВ)

Круговая диаграмма ПРВ

Теперь перейдем к верификации вероятностных категориальных прогнозов. В следующих двух разделах будут рассмотрены два показателя: показатель Брайера (ПБ) и показатель ранжированной вероятности (ПРВ).

Показатель Брайера используется в тех случаях, когда вероятностные прогнозы разделены на две категории. ПРВ используется для верификации прогнозов, которые разделены более чем на две категории. Эти два показателя основаны на одной и той же математической формуле сравнения вероятностей наблюденных и прогнозируемых значений. Но прежде чем перейти к более подробному рассмотрению, давайте сначала проанализируем, почему прогнозист выбирает тот или иной показатель.

Показатель Брайера полезно использовать в тех случаях, когда последствия являются асимметричными. Так, например, когда двумя категориями являются наступление паводка и ненаступление паводка, разница между этими категориями очень важна, и показатель Брайера является подходящим критерием верификации.

ПРВ полезно использовать в тех случаях, когда последствия являются симметричными. Другими словами, значение конкретной категории не настолько важно, как суммарное значение всех категорий. Таким образом, ПРВ – это полезный инструмент верификации прогнозов с несколькими категориями стока, когда вас не особо интересует какая-то конкретная категория стока.

Показатель Брайера (ПБ)

Формула расчета показателя Брайера

Показатель Брайера можно использовать для получения ответа на вопрос: «Какова величина ошибок вероятностных прогнозов?» Как отмечалось выше, его особенно полезно использовать в тех случаях, когда важна разница между двумя указанными категориями. В основу этого показателя положено среднее значение квадратов разностей вероятностей прогнозируемых значений, f, и наблюденных значений, о, для всех пар прогноз–наблюдение.

Помните, что наблюдаемая вероятность равна 0.0, если событие не произошло, и 1.0, если оно произошло. Подобно другим статистическим данным об ошибках, идеальным вариантом является ПБ, равный 0.0, поскольку он указывает на отсутствие разницы между наблюдаемой и прогнозируемой вероятностью. Наихудшее значение ПБ равно 1.0. Показатель Брайера для вероятностных прогнозов аналогичен средней квадратической ошибке для детерминистских прогнозов.

Упрощенная формула расчета показателя Брайера

Для упрощения мы будем использовать пример с одним прогнозом, это означает, что N в уравнении равно единице. Это упрощает уравнение для демонстрационных целей.

Пример показателя Брайера

Допустим, вероятность достижения или превышения паводочного уровня в прогнозе составляет 80% или вероятность равна 0.80. Достигнут паводочный уровень, это означает, что наблюдаемая «вероятность» равна 1.0. ПБ – это возведенная в квадрат разница вероятностей прогноза и наблюдения, или (0.80–1.0) в квадрате, что равно -0.20 в квадрате или 0.04. Это число очень близко к 0.0, и это хорошо.

Второй пример показателя Брайера

С другой стороны, что, если паводочный уровень не наблюдался, а по нашим прогнозам вероятность достижения или превышения паводочного уровня составляла 80%? Наблюдаемая вероятность равна 0.0. Теперь мы имеем 0.80–0.00 в квадрате, или 0.64. Это значение намного ближе к 1.0, что говорит о том, что прогноз недостаточно точный.

Показатель ранжированной вероятности (ПРВ)

Показатель ранжированной вероятности

Пример ПРВ

Чтобы понять, что собой представляет показатель ранжированной вероятности (ПРВ), следует вспомнить, что такое интегральная функция распределения (ИФР), описанная в разделе 2. ПРВ оценивает разницу между значениями вероятностных прогнозов и значениями соответствующих наблюдений на основе сравнения ИФР прогнозируемых и наблюденных значений. Далее это будет наглядно показано, когда мы будем описывать диаграмму ПРВ. Но сначала давайте рассмотрим то, как определяется ПРВ.

Многокритериальная оценка прогноза уровня с использованием ПРВ

Определение ПРВ очень похоже на определение показателя Брайера, но при этом ПРВ может использоваться для верификации прогнозов стока с несколькими категориями, представленными сегментами. Здесь каждый сегмент представляет категорию уровня воды. Прогнозируемая вероятность связана с каждым сегментом. Таким образом, ПРВ отвечает на вопрос: «Насколько хорошо вероятностные прогнозы предсказывали повторяемость попадания результатов наблюдений в определенные сегменты?»

Если сегменты охватывают весь диапазон прогнозов, ПРВ аналогичен статистике ошибок детерминистского прогноза. Таким образом, если категории уровня воды от первой до 16-ой представляют все возможные вероятности прогноза, то ПРВ отвечает на вопрос: «Насколько далеко от наблюдаемого значения был мой вероятностный прогноз?»

Круговая диаграмма ПРВ ПБ

Итак, начнем с простого примера с 3 категориями или 3 сегментами. Допустим, у нас есть три сегмента пороговых значений стока, отвечающих за минимальный, средний и максимальный сток. В этом случае большей является вероятность среднего по величине стока. Итак, наши три сегмента: минимальный сток – меньше 200 единиц стока, средний сток – от 200 единиц и выше, но не более 300 единиц, и максимальный сток – выше 300 единиц.

Вторая формула расчета показателя Брайера

Напомним, что показатель Брайера – это среднее значение квадратов разностей вероятностей по всем парам прогноз–наблюдение для системы с двумя сегментами. Это упрощенное уравнение предполагает один прогон прогноза.

Первая формула расчета ПРВ

ПРВ также можно рассчитать как сумму квадратов разностей вероятностей прогнозируемого значения f и наблюдаемого значения o, но для нескольких категорий. Для простоты возьмем один прогон прогноза для системы с 3 сегментами, обозначенными индексами 1, 2 и 3.

Для получения более подробной информации о формуле ПРВ для нескольких прогнозов и многочисленных сегментов см. дополнительные ресурсы.

Расчет ПРВ

Трехсегментная круговая диаграмма ПРВ прогнозируемых значени

Теперь рассмотрим пример расчета ПРВ при верификации прогноза с тремя сегментами. Допустим, что вероятностный прогноз говорит о том, что вероятность для каждого из этих сегментов, выраженная по шкале от 0.0 до 1.0, составляет 0.20 для минимального стока, 0.60 для среднего стока и 0.20 для максимального стока.

Круговая диаграмма наблюденных значений ПРВ с тремя сегментами

Теперь предположим, что фактически имелся сток из категории «среднего стока». C точки зрения вероятностного прогноза это означает, что вероятность наблюдения сегмента среднего стока равна 1.0, а двух других сегментов – 0.0.

Круговая диаграмма ПРВ прогнозируемых и наблюденных значений

Для расчета ПРВ прогнозируемых значений, мы будем использовать интегральные вероятности, иногда называемые вероятностями непревышения. Вероятности непревышения определены ранее в разделе 2 этого модуля.

Значения интегральных вероятностей для расчета ПРВ

Интегральная вероятность прогнозируемых значений Интегральная вероятность наблюденных значений
Сегмент 1: минимальный сток
Сегмент 2: средний сток
Сегмент 3: максимальный сток

Для начала мы имеем вероятность прогнозируемого значения в сегменте «минимальный сток», равную 0.20. Поскольку это первый сегмент, вероятность сегмента равна интегральной вероятности.

Далее у нас есть вероятность прогнозируемого значения 0.60 для сегмента «среднего стока». Интегральная вероятность равняется сумме вероятностей сегментов «минимального стока» и «среднего потока», или 0.20 плюс 0.60. Интегральная вероятность равняется 0.80.

Далее мы имеем интегральную вероятность для «максимального стока». Она равна 1.0, поскольку это сумма всех вероятностей сегментов прогнозируемых значений. Как видите, интегральная вероятность последнего сегмента всегда равна 1.

Теперь, когда у нас есть интегральные вероятности прогнозируемых значений для каждого сегмента, определим интегральные вероятности наблюденных значений. Вероятность наблюдаемого значения «минимального стока» составляет 0.0, поскольку наблюдался средний сток.

Вероятность наблюдаемого значения «среднего стока» составляет 1.0, поскольку наблюдался средний сток, и не был превышен. Интегральная вероятность также равна 1.0.

Вероятность наблюдаемого значения максимального стока составляет 0.0, поскольку наблюдался только средний сток, но интегральная вероятность максимального стока составляет 1.0, поскольку, как только интегральная вероятность достигает 1.0, как это было в сегменте «среднего стока», она остается неизменной.

Значения интегральных вероятностей для расчета ПРВ

Интегральная вероятность прогнозируемых значений Интегральная вероятность наблюденных значений
Сегмент 1: минимальный сток 0.20 0.00
Сегмент 2: средний сток 0.80 1.00
Сегмент 3: максимальный сток 1.00 1.00

Итак, теперь, когда у нас есть заполненная таблица, мы можем рассчитать значение ПРВ, используя уравнение.

Первая формула расчета ПРВ

Σ[(0.20-0.00)2 + (0.80-1.00)2 +(1.00-1.00)2] = Σ [0.04 + 0.04 +0.00] = 0.08

Уравнение расчета ПРВ для нашего примера с 3 сегментами будет выглядеть так: (0.20 минус 0.00) в квадрате, плюс (0.80 минус 1.00) в квадрате, плюс (1.00 минус 1.00) в квадрате. В итоге 0.04 плюс 0.04 плюс 0.00 дает значение ПРВ, равное 0.08. Это значение близко к идеальному значению ПРВ, равному 0.0, что означает, что в вероятностных прогнозах было мало ошибок.

Круговая диаграмма ПРВ среднемноголетних и наблюденных значений

Значения интегральных вероятностей для расчета ПРВ

Расчет ПРВ по среднемноголетней и наблюденной вероятностям непревышения
Интегральная вероятность прогнозируемых значений Интегральная вероятность наблюденных значений
Сегмент 1: минимальный сток 0.20 0.00
Сегмент 2: средний сток 0.80 1.00
Сегмент 3: максимальный сток 1.00 1.00

Вопрос

Используя тот же подход и информацию о вероятностях среднемноголетних значений стока при наблюденных средних значениях стока, определите, каким будет значение ПРВ для среднемноголетних параметров.

Выберите наиболее правильный ответ.

Правильный ответ в) Σ [(0.60-0.00)2+(0.90-1.00)2+(1.00-1.00)2] = 0.37

Первая формула расчета ПРВ

Интегральные вероятности среднемноголетних значений сегментов минимального, среднего и максимального стока составляют 0.60, 0.90 и 1.00 соответственно. Интегральные вероятности наблюденных значений для сегментов минимального, среднего и максимального стока составляют 0.00, 1.00 и 1.00 соответственно. Таким образом, уравнение будет выглядеть так: (0.60 минус 0.00) в квадрате, плюс (0.90 минус 1.00) в квадрате, плюс (1.00 минус 1.00) в квадрате, что равно 0.36 плюс 0.01 плюс 0.00, что дает значение ПРВ, равное 0.37. Поскольку это значение отличается значительнее от идеального значения 0.00, чем значение ПРВ, которое мы рассчитали для прогнозируемых значений, то среднемноголетние параметры менее точны, чем прогнозные.

Выберите.
Нормированная формула расчета ПРВ

Идеальное значение ПРВ составляет 0.00, худшее значение зависит от количества используемых сегментов. Часто значение ПРВ нормируется путем деления на количество сегментов минус 1. Эту формулировку иногда называют «нормированным ПРВ».

Непрерывный ПРВ, представленный в разделе 6, – это еще один вид ПРВ, который не зависит от количества используемых сегментов прогнозируемых значений.

Отображение ПРВ/Графическое представление ПРВ

График ПРВ для небольшого паводка

Расчет ПРВ прогнозируемых значений в сравнении с наблюденными

Вероятность прогнозируемых значений Вероятность наблюденных значений
Сегмент 1: минимальный сток 0.20 0.00
Сегмент 2: средний сток 0.80 1.00
Сегмент 3: максимальный сток 1.00 1.00

Для построения графика ПРВ следует отложить интегральную вероятность по оси Y и пороговые значения сегмента по оси X. Мы определили 3 сегмента для минимального, среднего и максимального стока. Если мы построим график интегральной вероятности, где сегмент 1 будет равен 0.20; сегмент 2 будет равен 0.80; сегмент 3 будет равен 1.00, мы получим приведенный на рисунке график прогнозируемых значений. Поскольку наблюдалось среднее значение стока, интегральная вероятность наблюдаемого значения достигает 1.00 в сегменте среднего стока и не выходит за его пределы.

График ПРВ для небольшого паводка, с заливкой

Таким образом, график ПРВ просто показывает разницу между ИФР прогнозируемых значений и ИФР наблюденных значений. ПРВ определяется как область между этими двумя кривыми. Для этого прогноза такая область довольно мала, что указывает на хорошее значение ПРВ, равное 0.08.

Вопрос 1 из 2

Вопрос по графику ПРВ прогнозируемых значений.

Как выглядел бы график ПРВ, если бы для этого же прогноза наблюдалось высокое значение стока?

Выберите наиболее правильный ответ.

Правильный ответ – а) График а)

График прогнозируемых значений не имеет изменений, а на графике наблюденных значений 0.0 меняется на 1.0 в сегменте 3, представляющем «максимальный сток».

Выберите.

Вопрос 2 из 2

График ПРВ для сильного и небольшого паводков, с заливкой

На графике ПРВ для наблюденного высокого стока обратите внимание на залитую область, которая показывает разность вероятностей прогнозируемого и наблюденного значений. Значение ПРВ равно 0.68. Сравните его с графиком, который показывает случай, когда при таком же прогнозе наблюдался средний сток, а ПРВ составлял 0.08. Что обозначают области с заливкой?

Выберите наиболее правильный ответ.

Правильный ответ – а) При сценарии с высоким стоком количество ошибок прогнозирования возрастет.

Выберите.

Точность

Темы по верификации прогнозов

В этом разделе рассматривается верификация точности прогнозов. Точность является одной из семи важных тем, которые следует учитывать при верификации гидрологических прогнозов.

Точность определяется как степень совпадения наблюденных и прогнозируемых значений. Статистические данные о точности на самом деле являются оценкой ошибок прогнозирования, и поэтому мы можем назвать их статистикой ошибок. Исключая систематические ошибки прогнозирования, мы предпочитаем для этой статистики ошибок значения, близкие к 0.0, что свидетельствует о том, что погрешность прогнозирования является минимальной. Систематическая ошибка прогнозирования выражается соотношением, и значение, близкое к 1.0, указывает на минимальную погрешность между прогнозируемыми и наблюденными значениями.

Оценочные критерии точности (статистика ошибок):

Детерминистский прогноз Вероятностный прогноз
Средняя абсолютная ошибка (САО)
Средняя квадратическая ошибка (СКО)
Средняя ошибка (СО)
Интегральная систематическая погрешность
Непрерывный ПРВ (НПРВ)

Непрерывный показатель ранжированной вероятности отражает статистику ошибок, используемую при верификации вероятностных прогнозов. Значение 0.0 указывает на идеальный прогноз – отсутствие ошибок. Все остальные показатели, представленные в этом разделе, подходят для верификации детерминистских прогнозов.

Непрерывный ПРВ (НПРВ)

Непрерывный показатель ранжированной вероятности (НПРВ)

ПРВ с многочисленными сегментами

Показатель ранжированной вероятности (ПРВ) был описан в разделе, посвященном верификации категориальных прогнозов. Часто диаграмма ПРВ будет включать намного больше сегментов, чем в нашем примере с тремя сегментами из упомянутого раздела выше. Здесь изображена диаграмма ПРВ с многочисленными сегментами, каждый из которых представляет интервал максимального стока.

Диаграмма непрерывного ПРВ (НПРВ)

Когда имеется очень большое количество сегментов прогноза, каждый сегмент представляет собой очень узкий интервал значений стока. В этой ситуации суммарное значение ошибок вероятностей между прогнозируемыми и наблюденными значениями можно определить с помощью интеграла. В результате мы получим непрерывный ПРВ.

Это похоже на многие другие статистические данные об ошибках, где идеальной является разность вероятностей наблюденных и прогнозируемых значений равная нулю, поскольку это означает нулевую ошибку.

Статистика ошибок

  • Два распространенных статических показателя ошибок:
    • Средняя абсолютная ошибка (САО)
    • Средняя квадратическая ошибка (СКО)

При верификации детерминистских прогнозов для измерения количественной точности обычно используются два статических показателя ошибок: Средняя абсолютная ошибка (САО) и средняя квадратическая ошибка (СКО).

Иллюстрация видов ошибок с помощью гидрографа

Оба вида ошибок учитывают разность между прогнозируемыми и наблюденными значениями. В них не учитывается, является ли эта разность положительной – прогнозируемое значение больше наблюдаемого, или отрицательной – прогнозируемое значение меньше наблюдаемого.

Формула расчета средней абсолютной ошибки (САО).

САО – это среднее значение абсолютных величин разностей между прогнозируемыми и наблюденными значениями. СКО – это квадратный корень из среднего значения квадрата разностей между прогнозируемыми и наблюденными значениями. В обоих случаях значение 0.00 указывает на полное совпадение наблюденных и прогнозируемых значений. Значения возрастают от нуля до больших ошибок и теоретически могут доходить до бесконечности.

Формула расчета средней абсолютной ошибки (САО).

СКО более чувствительна к большим разностям между прогнозируемыми и наблюденными значениями, чем САО. Поэтому САО целесообразнее использовать при верификации значений минимального стока, поскольку величина ошибки прогноза обычно намного меньше для прогнозов минимального стока. Большие ошибки, более характерные для прогнозов максимального стока, будут доминировать в статистике СКО.

Формула расчета средней ошибки

Другим видом ошибок является средняя ошибка (СО). СО – это средняя арифметическая разность между прогнозируемыми и наблюденными значениями.

Статистический показатель средней ошибки в гидрологии

В отличие от САО и СКО, СО указывает на то, будут ли прогнозируемые значения, как правило, выше или ниже наблюденных значений, поэтому вы можете получить отрицательные числа. Положительные значения указывают на тенденцию завышения прогнозных значений (прогнозные значения имеют тенденцию превышать наблюденные значения), а отрицательные значения обозначают тенденцию занижения прогнозных значений по сравнению с наблюденными значениями.

  • Средняя ошибка равна = 0 (ошибки сведены к нулю)
  • Средняя абсолютная ошибка > 0
  • Средняя квадратическая ошибка >> 0

Несмотря на то, что, как и в случае с другими статистическими данными об ошибках, наилучшим считается значение 0.00, это может ввести в заблуждение. Если в наборе прогнозов есть большие ошибки, которые равномерно распределены выше и ниже среднего значения, то средняя ошибка равна нулю, потому что ошибки компенсируют друг друга. Поэтому значение СО, равное нулю, не обязательно означает идеальный прогноз. В этом случае значения СКО и САО будут иметь ненулевые значения, указывающие на несовершенный прогноз. При верификации прогнозов важно использовать статистику СО вместе с другими оценочными критериями.

Систематическая ошибка прогноза

Есть несколько статистических параметров, которые называются «систематической ошибкой». Поскольку СО показывает направление различий между прогнозируемыми и наблюденными значениями, то в некоторых источниках она называется систематической аддитивной погрешностью. Показатель систематической ошибки категориального прогноза, описанный в разделе 5, представляет собой систематическую погрешность повторяемости, поскольку он выводится из сегментов на основе категорий прогнозов.

График интегральной систематической погрешности

Другим часто используемым видом систематической ошибки в гидрологии является интегральная систематическая погрешность, которая представляет собой отношение суммы прогнозных значений к сумме наблюденных значений, выраженное по следующей формуле:

Формула расчета систематической ошибки (погрешности)

Это отношение может находиться в диапазоне от 0 до бесконечности, при этом значение 1.0 указывает на отсутствие систематической ошибки (погрешности). Значение больше 1.0 означает превышение прогнозными значениями наблюденных значений, а значение меньше 1.0 указывает на превышение наблюденными значениями прогнозных значений.

Упражнение

Здесь представлена таблица с пятью прогнозными значениями речного стока и соответствующими наблюденными значениями стока. В таблице также показана разность прогнозных и наблюденных значений, абсолютная разность и квадрат разности. В последней строке указана сумма значений в каждом столбце.

Ниже приведены формулы для каждого из четырех видов систематических ошибок (погрешностей): Средняя абсолютная ошибка, средняя квадратическая ошибка, средняя ошибка и интегральная систематическая ошибка. Поскольку имеется пять прогнозных значений, N равно 5.

Используйте эту информацию и калькулятор, чтобы ответить на следующие вопросы.

Упражнение по определению значений ошибок

Успешность прогноза

Темы по верификации прогнозов

В этом разделе рассматриваются оценочные критерии успешности прогноза, а также то, какое отношение они имеют к верификации гидрологических прогнозов. Успешность является одной из семи важных тем, которые следует учитывать при верификации гидрологических прогнозов.

В отличие от статистических показателей ошибок прогноза, статистический показатель его успешности помогает оценить оправдываемость прогноза относительно некоторого эталонного прогноза. К общим используемым эталонным прогнозам относятся, в частности, прогнозы среднемноголетних значений, персистентность и модельный ориентир. Таким образом, мы можем ответить на такой вопрос: «Несмотря на то, что нами получены не вполне удовлетворительные значения СКО и систематической ошибки, насколько мы смогли улучшить прогнозы по сравнению с прогнозами среднемноголетних значений?»

Статистические данные об успешности прогноза особенно полезно использовать потому, что они учитывают, повысилась ли оправдываемость прогноза благодаря тому, что события было легче предсказать; а в этом случае и прогноз, и эталонный прогноз имеют лучшую оправдываемость, при том что успешности прогноза остается неизменной. Статистический показатель успешности прогноза позволяет обнаружить повышение оправдываемости прогнозов по сравнению с эталонными прогнозами, достигаемое за счет «интеллектуальной» составляющей прогностической системы.

Критерии оценки успешности прогноза:

Детерминистский прогноз Вероятностный прогноз
Успешность прогноза c учетом средней квадратической ошибки (УП-СКО)
Успешность прогноза с учетом показателя Брайера (УП-ПБ)
Успешность прогноза с учетом показателя ранжированной вероятности (УП-ПРВ)

Показатели успешности прогноза могут применяться как к детерминистским, так и к вероятностным прогнозам.

Формулы

Формула расчета показателя успешности прогноза этал

Формула расчета показателя успешности прогноза этал

Показатель успешности прогноза рассчитывается по формуле: успешность прогноза минус успешность эталонного прогноза разделить на успешность идеального прогноза минус успешность эталонного прогноза.

  • Успешность прогноза c учетом средней квадратической ошибки (УП-СКО)
  • Успешность прогноза с учетом показателя Брайера (УП-ПБ/ПМПБ)
  • Успешность прогноза с учетом показателя ранжированной вероятности (УП-ПРВ/МПРВ)

Далее мы рассмотрим показатели успешности прогноза с привязкой к средней квадратической ошибке, показателю Брайера и показателю ранжированной вероятности. Это показатель успешности прогноза с учетом средней квадратической ошибки, УП-СКО, показатель успешности прогноза с учетом показателя Брайера, УП-ПБ, и показатель успешности прогноза с учетом показателя ранжированной вероятности (УП-ПРВ).

  • Успешность идеального прогноза = 0
Успешность прогноза со значением, равным нулю

При идеальном прогнозе СКО, ПБ и ПРВ, каждый в отдельности, равны 0. Поэтому уравнение будет выглядеть таким образом. Следует учитывать, что другие оценочные критерии точности не обязательно имеют идеальное значение, равное нулю, поэтому уравнение необязательно будет упрощаться таким образом.

Формула для оценки успешности прогноза при отсутствии ошибок

Если прогноз не показывает ошибок, это означает, что он идеален, тогда уравнение расчета показателя УП будет выглядеть таким образом; при этом числитель будет равен знаменателю. Итак, идеальный показатель УП имеет значение 1.

Успешность прогноза в случае совпадения прогнозного значения с эталонным

Если прогнозное значение совпадает с эталонным, тогда числитель становится равным нулю, а, значит, показатель УП равен нулю. В этом случае показатель УП отсутствует, поскольку уровень оправдываемости прогноза не отличается от уровня оправдываемости эталонного прогноза.

  • Отсутствие УП в сравнении с эталонным прогнозом: Показатель успешности прогноза = 0
  • Положительное значение показателя УП (прогноз улучшился по сравнению с эталонным прогнозом): Показатель успешности прогноза > 0 и <1
  • Отрицательное значение показателя УП (прогноз ухудшился по сравнению с эталонным прогнозом): Показатель успешности прогноза > 0

Лучшей успешности прогноза соответствуют показатели успешности прогноза от 0 до 1. Это означает, что прогноз имел бóльшую оправдываемость по сравнению с эталонным прогнозом. Худшей успешности прогноза соответствуют показатели успешности прогноза ниже нуля. Это происходит в ситуациях, когда прогноз имел меньшую оправдываемость по сравнению с эталонным прогнозом.

Эталонный прогноз почти равняется идеальному прогнозу

В ситуациях, когда эталонный прогноз почти равен идеальному прогнозу, возможны большие отрицательные значения показатели успешности прогноза, даже если прогноз был не намного хуже эталонного. Математически это объясняется очень маленьким числом в знаменателе.

Успешность прогноза и СКО

  • Определяет успешность независимого прогноза речного стока
  • Эталонный прогноз: прогноз речного стока на основе среднемноголетних данных
  • Является ли независимый прогноз лучше прогноза среднемноголетних значений? Насколько лучше?

Рассмотрим ситуацию, когда мы хотим использовать среднюю квадратическую ошибку, чтобы узнать показатель успешности прогноза речного стока. Эталонным прогнозом является прогноз среднемноголетних значений или климатологический прогноз. Другими словами, мы ответим на вопрос: «Свидетельствует ли независимый прогноз об улучшении прогнозирования по сравнению с прогнозом среднемноголетних значений, и насколько улучшилось прогнозирование?»

Расчет показателя успешности прогноза с учетом СКО (Пример 1)

Напомним, что СКО предоставляет информацию об ошибке на основе различий между гидрографами прогнозируемых и наблюденных значений. Этот простой график СКО показывает, что со временем ошибка может варьировать от нуля до относительно большого значения.

Расчет показателя успешности прогноза с учетом СКО (Пример 2)

Мы также можем использовать СКО для прогнозов среднемноголетних значений. Когда СКО прогноза ниже СКО прогноза среднемноголетних значений, это означает, что прогноз имел большую оправдываемость, чем прогноз среднемноголетних значений, потому что в нем было меньше ошибок.

Расчет показателя успешности прогноза с учетом СКО (Пример 3)

Таким образом, показатель УП имеет положительное значение по сравнению с климатологическим. Когда СКО прогноза больше СКО климатологического прогноза, то показатель УП имеет отрицательное значение. Итак, теперь посмотрим, как будет выглядеть соответствующий график показателя успешности прогноза с учетом СКО, или УП-СКО.

Расчет показателя успешности прогноза с учетом СКО (Пример 4)

Напомним, что при идеальном прогнозе или когда СКО прогноза равно нулю, тогда показатель УП-СКО равен 1, что является идеальным значением успешности прогноза.

Расчет показателя успешности прогноза с учетом СКО (Пример 5)

Когда СКО прогноза и СКО климатологического прогноза равны, то успешность прогноза отсутствует, т.е. показатель УП-СКО равен 0. Это верно и независимо от значения СКО, поскольку показатель УП оценивает только то, насколько прогнозы улучшились по сравнению с нашим эталонным прогнозом, т.е. прогнозом среднемноголетних значений.

Расчет показателя успешности прогноза с учетом СКО (Пример 6)

Если СКО климатологического прогноза меньше СКО прогноза, а значит оправдываемость прогноза ниже оправдываемости климатологического прогноза, то значение УП отрицательное. В случаях, когда эталонный прогноз, в нашем случае климатологический, имеет значение СКО, близкое к нулю, то показатель УП-СКО может принять большое отрицательное значение, даже если значение СКО прогноза является относительно небольшим.

Наконец, отметим, что показатель УП-СКО может быть положительным даже при относительно высоких значениях СКО прогноза. Суть показателя успешности прогноза заключается в том, чтобы оценить, насколько оправдываемым является прогноз по сравнению с эталонным прогнозом, а именно с прогнозом среднемноголетних значений.

УП-ПБ и УП-ПРВ

Показатель успешности прогноза с учетом показателя Брайера (УП-ПБ) и показатель успешности прогноза с учетом показателя ранжированной вероятности (УП-ПРВ)

  • Эталонный прогноз = климатологический прогноз (прогноз среднемноголетних значений)
  • Являются ли прогнозы более надежными, чем прогнозы среднемноголетних значений?

Теперь давайте рассмотрим оценки успешности прогноза, связанные с показателем Брайера и показателем ранжированной вероятности. В этих примерах в качестве эталонного прогноза мы будем использовать климатологический прогноз. Итак, теперь вопрос стоит так: «Является ли прогноз более надежным, чем климатологический?»

Круговая диаграмма прогноза вероятности превышения паводочного уровня – хороший прогноз

Вернемся к примеру расчета показателя Брайера из раздела 5. В том примере вероятность паводка составляла 0.80, и паводок произошел. Показатель Брайера равен 0.04.

Круговая диаграмма климатологического прогноза вероятности превышения паводочного уровня

Если, согласно климатологическому прогнозу, вероятность паводка составляет 0.30, тогда показатель Брайера будет равен 0.49.

Формула расчета УП-ПБ

Показатель успешности прогноза с учетом показателя Брайера (УП-ПБ) рассчитывается по формуле: ПБпрогн минус ПБэтал разделить на (0 минус ПБэтал). Получим: (0.04 – 0.49) разделить на -0.49. Что равно +0.92. Показатель успешности прогноза с учетом показателя Брайера, равный +0.92, означает, что показатель улучшился на 92% по сравнению с климатологическим прогнозом.

Контрольный вопрос

  • Показатели УП-ПРВ и УП-ПБ подобны
  • Климатологический прогноз является эталонным прогнозом

Показатель успешности прогноза с учетом показателя ранжированной вероятности (УП-ПРВ) рассчитывается так же, как и успешность прогноза с учетом показателя Брайера (УП-ПБ). Используя климатологический прогноз в качестве эталонного прогноза, вернитесь к уравнению, чтобы ответить на следующие вопросы.

Вопрос 1 из 3

Если УП-ПРВ меньше 0, то что можно сказать об успешности прогноза?

Выберите все подходящие варианты.

Правильные ответы – а) и г).

Выберите.

Вопрос 2 из 3

Если УП-ПРВ меньше 1, но больше 0, то что можно сказать об успешности прогноза?

Выберите все подходящие варианты.

Правильные ответы – б) и в).

Выберите.

Вопрос 3 из 3

В разделе, посвященном категориальным прогнозам, мы рассчитывали ПРВ прогноза для произошедшего небольшого паводка и получили число 0.08. ПРВ климатологического прогноза для наблюденного небольшого паводка равна 0.37. Каким будет значение УП-ПРВ, если климатологический прогноз является эталонным?

Выберите наиболее правильный ответ.

Правильный ответ – г) 0.78

УП-ПРВ равен (0.08 минус 0.37) разделить на (0 минус 0.37), что равно -0.29/-0.37, и в итоге получим 0.78. Это указывает на улучшение прогноза на 78% по сравнению с климатологическим, с прогнозом среднемноголетних значений.

Выберите.

Оценочные критерии условных прогнозов

Темы по верификации прогнозов

В этом разделе будут рассмотрены оценочные критерии, используемые в процессе верификации условных прогнозов. Верификация условных прогнозов является одной из семи важных тем, которые следует рассматривать при верификации гидрологических прогнозов.

Оценочные критерии, используемые в процессе верификации условных прогнозов, предоставляют информацию об оправдываемости прогнозов или о вероятности осуществления прогнозов при условии наступления определенного события или при определенном условии.

Оценочные критерии, используемые в процессе верификации условных прогнозов:

Детерминистский прогноз Вероятностный прогноз
Оценочные критерии достоверности Диаграмма достоверности Диаграмма атрибутов Диаграмма дискриминантной способности
Сравнительная оперативная характеристика (СОХ) Сравнительная оперативная характеристика (СОХ)

Существуют оценочные критерии дискриминантной способности и достоверности, которые применяются при верификации как детерминистских, так и вероятностных прогнозов.

Достоверность/распознавательная способность

  • Верификация условного прогноза
    • Относительно прогнозов
    • Относительно наблюдений
  • Оценка достоверности:
    • С учетом имеющегося прогноза, какими были соответствующие наблюденные значения?
  • Оценка распознавательной способности:
    • С учетом имеющихся наблюденных значений, что предсказывали прогнозы?

Верификация условного прогноза может проводиться относительно или прогнозируемых значений, или наблюденных значений. Следует рассмотреть оба подхода, чтобы лучше понять различные аспекты оправдываемости прогноза.

Достоверность характеризует статистические данные, обусловленные определенным прогнозом. Другими словами, какими были соответствующие наблюденные значения при определенных прогнозах конкретного события?

Распознавательная способность прогноза характеризует статистические данные, обусловленные определенными наблюдениями. Другими словами, с учетом определенных наблюденных значений определенного события, что предсказывали соответствующие прогнозы? Есть два оценочных критерия распознавательной способности, которые мы рассмотрим в следующих разделах: (1) Сравнительная оперативная характеристика (СОХ), которая определяет разрешающую способность прогноза, и (2) диаграмма распознавательной способности.

Пример

Сравнение достоверности прогноза с распознавательной способностью прогноза (Пример 1)

Рассмотрим двадцать прогнозов речного стока. Это могут быть двадцать детерминистских прогнозов или ансамблевый прогноз с двадцатью элементами ансамбля. Для простоты мы будем использовать две классификации для прогнозных и наблюденных значений. Первая классификация предназначена для значений стока ниже установленного порогового значения, и мы будем обозначать эти события буквой «L» синего цвета. Вторая классификация предназначена для значений стока, равных или превышающих установленное пороговое значение, и мы будем обозначать эти события буквой «H» красного цвета.

Сравнение достоверности прогноза с распознавательной способностью прогноза (Пример 2)

Теперь перечислим двадцать соответствующих наблюденных значений для этих прогнозных значений. Мы снова используем L и H для обозначения наблюденного стока. Есть два способа сравнения этих прогнозных и наблюденных значений. Один из них – это верификация на основе прогнозных значений, а второй – верификация на основе наблюденных значений.

Сравнение достоверности прогноза с распознавательной способностью прогноза (Пример 3)

Для верификации на основе прогнозных значений разделим прогнозы на две группы. В первой группе будут все прогнозы «L» с соответствующими наблюденными значениями. Во второй группе будут все прогнозы «Н» с соответствующими наблюденными значениями. Теперь мы можем ответить на два важных вопроса.

Вопрос 1: Если прогнозируемый сток вошел в группу «L», каким был соответствующий наблюденный сток? Здесь мы видим, что 8 из 10, или 80% наблюденных значений совпали со значением L. Это свидетельствует о достоверной системе прогнозирования низкого стока L.

Вопрос 2: Если прогнозируемый сток вошел в группу «H», каким был соответствующий наблюденный сток? В этот раз мы видим, что только 4 из 10, или 40% наблюденных значений совпали с прогнозируемыми значениями стока H. Это указывает на то, прогностическая система является не совсем достоверной для прогнозирования высокого стока H.

Сравнение достоверности прогноза с распознавательной способностью прогноза (Пример 4)

Далее мы рассмотрим верификацию на основе наблюденных значений. Снова разделим данные на две группы, сток категорий L и H, но на этот раз на основе данных наблюдений. Итак, в первую группу попадут все наблюденные значения стока L и соответствующие им прогнозные значения. Во вторую группу попадут все наблюденные значения стока H и соответствующие им прогнозные значения. Теперь мы можем задать следующие два вопроса.

Вопрос 1: Если наблюденный сток вошел в группу «L», каким был соответствующий прогнозный сток? Мы видим, что только 8 из 14, или 57% прогнозных значений совпали с наблюденными. Таким образом, прогностическая система сработала немного лучше, чем 50-50, при различении условий низкого стока.

Вопрос 2: Если наблюденный стока вошел в группу «H», каким был соответствующий прогнозный сток? В этом случае 4 из 6, или 67% прогнозных значений совпали с наблюденными.

Достоверность
При прогнозируемом стоке, равном    Процент соответствующих наблюденных значений, совпавших с прогнозными значениями
L 80%
H 40%
Распознавательная способность
При наблюденном стоке, равном    Процент соответствующих прогнозов, правильно предсказавших результат
L 57%
H 67%

Так что это значит? В этом случае прогностическая система показала достоверный результат, спрогнозировав сток L. Другими словами, если прогнозировался сток L, вероятность того, что наблюденное значение стока будет соответствовать L, составляла 80%. Однако прогностическая система также не распознала сток L. Если наблюденное значение стока относилось к L, вероятность того, что соответствующий прогноз предсказал сток L, составляла всего 57%.

Для стока H прогностическая система была менее достоверной, чем для прогнозов стока L. Только 40% прогнозных значений стока H совпали с наблюденными значениями стока H. Однако прогностическая система довольно хорошо справлялась с распознаванием стока H. Если наблюдалось значение стока H, тогда соответствующий прогноз предсказывал сток H в 2 из 3 случаев.

Это был простой пример всего с двумя категориями. В действительности, ряд наблюдений может содержать много категорий, включающих значения стока от минимально до максимально возможных. Верификация условного прогноза усложняется, но смысл достоверности прогноза и распознавательной способности прогноза остается таким же, как и для простой системы с двумя категориями.

Оценочные критерии достоверности

  • Достоверность – это согласованность между вероятностью прогноза и повторяемостью наблюдений.
  • Достоверность определяет условную систематическую ошибку для каждой подгруппы прогнозов.

Достоверность – это согласованность между вероятностью прогноза и повторяемостью наблюдений. После выполнения условия – разделение данных на подгруппы – для описания достоверности могут применяться некоторые оценочные критерии, рассмотренные нами ранее. Например, достоверность определяет условную систематическую ошибку для каждой подгруппы прогнозов.

При верификации вероятностных прогнозов используются диаграммы достоверности и атрибутов.

Диаграмма достоверности

Диаграмма достоверности 1

Диаграмма достоверности отображает повторяемость наблюденных событий как функцию от вероятностей прогнозируемых событий. Таким образом, она помогает увидеть, насколько хорошо вероятности прогнозируемых событий предсказали наблюдаемую повторяемость события. Другими словами, если наступление события прогнозировалось в 30% случаев, в каком проценте случаев оно фактически наблюдалось? Или, в вероятностных терминах, для всех прогнозов с вероятностью наступления события, равной 30%, сколько раз событие фактически происходило? В идеале, если мы возьмем все прогнозы с вероятностью наступления события, равной 30%, это событие должно было наблюдаться для 30% этих прогнозов.

Диаграмма достоверности 2

Вероятности прогнозируемых значений, заданных на оси X, разделены на интервалы. В этом примере мы будем использовать 11 интервалов, представляющих вероятности P: P =0.0, 0.0<P≤0.1, 0.1<P≤0.2, 0.2<P≤0.3, 0.3<P≤0.4, 0.9<P≤1.0.

Важно отметить, что диаграммы достоверности зависят от вида события; в нашем случае этим событием является максимальный сток ≥200 единиц стока. Поэтому информация, полученная с помощью диаграммы достоверности, актуальна только для этого события.

Диаграмма достоверности 3

Итак, что означает точка на диаграмме достоверности и ее положение относительно диагонали? Эта точка указывает на то, что прогнозируемый с вероятностью 0.5-0.6 сток равный или превышающий 200 единиц фактически наблюдался в 66% случаев или с вероятностью 0.66.

  • Точки на диагонали: достоверные прогнозы
  • Точки выше диагонали: превышение наблюденными значениями прогнозируемых значений
  • Точки ниже диагонали: превышение прогнозируемыми значениями наблюденных значений

Точки, лежащие прямо на диагонали, обозначают абсолютно достоверные прогнозы. В этих случаях вероятности прогнозируемых значений в точности равны повторяемости наблюденных значений. Точки, лежащие выше диагонали, обозначают превышение наблюденными значениями прогнозируемых значений. Это означает, что повторяемость наблюденных значений события больше вероятности прогнозируемых значений. Точки ниже диагонали обозначают превышение вероятности прогнозируемого значения над повторяемостью наблюденных значений.

Точность

Достоверность и точность

Гистограмма данных о размере выборки и точности

Размер выборки иногда влияет на применимость диаграммы достоверности.

Иногда составляется гистограмма, показывающая повторяемость прогнозов в каждом интервале вероятности. Это дает представление о количестве выборок, используемых для расчета статистического показателя достоверности, а также характеризует точность прогнозов.

Гистограмма точных прогнозов

Точные прогнозы:

  • Отличаются от климатологических прогнозов (прогнозов среднемноголетних значений)
  • Как правило, предсказывают вероятности, близкие к 0.0 или 1.0
  • Являются правильными, если они также являются достоверными

Прогнозы являются точными, если они часто значительно отличаются от климатологических или средних значений и имеют тенденцию предсказывать вероятности, близкие к 0 и 1. Точные прогнозы являются правильными, если они также являются достоверными, т.е. они хорошо соответствуют наблюденным значениям.

Влияние небольшого размера выборки на диаграмму достоверности

Если размер выборки слишком мал, то диаграмма достоверности может отображать беспорядочное расположение точек на графике по диагонали. Пользователь не может интерпретировать статистические результаты из-за такой неопределенности выборки.

Идеальная достоверность и точность

Верификация идеального прогноза с использованием критерия достоверности покажет одну точку в правом верхнем углу, одну точку в нижнем левом углу, а на гистограмме все выборки будут с вероятностями 0 и 1. Это будет означать, что вероятность прогнозов всегда равнялась 0 или 100%, и они всегда совпадали с наблюдениями.

Диаграмма атрибутов

Диаграмма атрибутов 1

Теперь возьмем нашу диаграмму достоверности прогноза стока, а именно «максимальный сток, превышающий или равный 200 единицам стока», и добавим некоторые функции.

Диаграмма атрибутов 2

Если мы добавим нашу гистограмму и наложим дополнительную информацию, которая позволит сравнить нанесенные на график данные с климатологическим прогнозом, разрешающей способностью и успешностью, то мы получим диаграмму атрибутов. Допустим, согласно климатологическому прогнозу, вероятность наступления события составляет 0.25. Линия с пометкой «без разрешающей способности» параллельна оси X и обычно отображает наблюденные среднемноголетние данные выборки. Что это значит? Это означает, что, если прогностическая система всегда прогнозирует среднемноголетние значения, она не может отделить случаи наступления событий от случаев ненаступления событий. Каждый раз, когда кривая, соединяющая нанесенные точки, становится горизонтальной, это свидетельствует о том, что конкретное наблюденное значение встречается при каждой вероятности прогнозируемого значения.

Диаграмма атрибутов 3

Линия, обозначающая отсутствие успешности прогноза, проходит посередине между линией отсутствия разрешающей способности и диагональю.

Диаграмма атрибутов 4

Залитая область на диаграмме атрибутов показывает участок, где прогнозы успешны.

Распознавательная способность

Составление диаграммы распознавательной способности на основе данных прогнозов и наблюдений

Распознавательная способность прогноза – это способность прогноза различать события с учетом наблюденного результата.

Для этого примера допустим, что существует пять категорий стока: очень низкий, низкий, средний, высокий и очень высокий. Поскольку распознавательная способность прогноза основана на данных наблюдений, разделим наблюдения на три подгруппы. Первая подгруппа, «наблюденный минимальный сток», включает в себя любое наблюденное значение очень низкого и низкого стока; вторая подгруппа, «наблюденный средний сток» определяется как категория среднего стока; а третья, «наблюденный максимальный сток», включает в себя любое наблюденное значение высокого и очень высокого стока.

Для этого примера рассмотрим ансамблевые прогнозы с 10 элементами. В столбце 2 показано, какой прогноз давал каждый из 10 элементов ансамбля при наблюденных значениях, входящих в подгруппу «наблюденный минимальный сток». В столбце 3 показано, какой прогноз давал каждый элемент ансамбля при наблюденных значениях, входящих в подгруппу «наблюденный средний сток». В столбце 4 показано, какой прогноз давал каждый элемент ансамбля при наблюденных значениях, входящих в подгруппу «наблюденный максимальный сток».

В нижней таблице представлена повторяемость прогнозируемых значений наших 5 категорий стока для каждой подгруппы наблюденных значений. Так, например, в столбце 2 в подгруппе «наблюденный минимальный сток» четыре из десяти членов ансамбля давали прогноз очень низкого стока, а еще четыре – прогноз низкого стока. Таким образом, вероятностный прогноз для каждой из таких категорий стока, как очень низкий и низкий, составляет 0.40. Категория среднего стока имеет вероятность, равную 0.20, поскольку ее прогнозировали только 2 из 10 членов ансамбля. Если наблюдался низкий сток, то прогнозы высокого или очень высокого стока отсутствовали.

Теперь сделаем то же самое для столбца 3 «наблюденный средний сток» и столбца 4 «наблюденный максимальный сток».

Теперь эту информацию можно использовать для построения диаграммы распознавательной способности.

Диаграмма распознавательной способности

Диаграмма распознавательной способности для максимального, среднего и минимального наблюденного стока

Теперь мы можем использовать информацию из таблицы, в которой представлены вероятности прогнозных значений стока, обусловленные подгруппами наблюденного стока, и построить диаграмму распознавательной способности.

На оси X диаграммы распознавательной способности представлены пять категорий стока от «очень низкого» до «очень высокого». На оси Y показана относительная повторяемость прогнозных значений.

Сначала рассмотрим синюю пунктирную линию, которая соответствует информации, представленной в столбце 2. Она показывает, что при наблюденных значениях низкого стока повторяемость таких категорий прогнозных значений, как очень низкий или низкий сток, равнялась 0.4, а вероятность среднего значения стока составляла 0.2. Повторяемость прогнозных значений для таких категорий стока, как высокий и очень высокий, снижается до 0.0. Если вы вспомните функцию плотности распределения вероятностей (ФПРВ) из раздела 2, то поймете, что синей пунктирной линией обозначена ФПРВ прогнозных значений при наблюденном низком стоке.

Зеленая пунктирная линия, соответствующая данным в столбце 3, представляет ФПРВ прогнозных значений при наблюденном среднем стоке. Она показывает относительно более низкие вероятности для таких категорий прогнозных значений, как очень низкий и низкий сток, по сравнению с категориями прогнозных значений от среднего до очень высокого стока.

Красная сплошная линия, соответствующая данным в столбце 4, представляет ФПРВ прогнозных значений при наблюденном высоком стоке.

Обратите внимание, что пунктирная зеленая линия очень похожа на сплошную красную линию. Это означает, что вероятности прогнозируемых значений при наблюденном среднем стоке были аналогичны вероятностям при наблюденном высоком стоке. Другими словами, прогностическая система не очень хорошо различает средние и высокие значения стока. Прогностическая система проявляет хорошую распознавательную способность в отношении низкого стока. Мы можем так сказать, потому что, если посмотреть на синюю пунктирную кривую, то можно заметить более высокие вероятности таких категорий низкого стока, как очень низкий и низкий сток, а ФПРВ несколько отделена от двух других кривых. Это означает, что прогнозные значения для случаев наблюдавшегося низкого стока отличались от тех случаев, когда наблюдался средний или высокий сток.

Примеры распознавательной способности для прогнозов максимального стока

В идеале, распределение наблюденных значений на три подгруппы должны быть очень четким, и это должно подтверждаться кривыми ФПРВ. На графике слева мы можем видеть, что каждая ФПРВ прогнозных значений для каждой подгруппы наблюденных значений стока отличается от двух других. Это свидетельствует о хорошей распознавательной способности прогнозов. Другими словами, прогнозы в отношении каждого наблюдаемого условия были уникальными. И в этом идеализированном случае подгруппы наблюденных значений соответствуют прогнозным значениям. Например, ФПРВ наблюденных значений высокого стока расположена справа на оси X, где отображаются прогнозные значения высокого стока.

И наоборот, графики ФПРВ для прогностической системы с низкой распознавательной способностью показывают небольшие различия между распределениями или вообще не отображают этих различий и часто сходятся на линии вероятности климатологического прогноза.

Диаграмма распознавательной способности для максимального, среднего и минимального наблюденного стока

Вернемся к нашей диаграмме распознавательной способности и предположим, что она представляет прогнозы максимального стока талых вод с заблаговременностью четыре месяца. Теперь построим диаграмму распознавательной способности для того же района и тех же переменных, но на этой диаграмме, расположенной ниже, будут отображены прогнозы с заблаговременностью один месяц.

Вопрос

Диаграмма распознавательной способности для максимального, среднего и минимального наблюденного стока

Что можно сказать о прогнозах с заблаговременностью один месяц по сравнению с прогнозами с заблаговременностью четыре месяца?

Выберите все подходящие варианты.

Правильные ответы – а) и г)

Прогнозы c заблаговременностью один месяц показывают лучшую распознавательной способность, что видно по хорошо разделенным кривым ФПРВ для подгрупп минимального, среднего и максимального стока. Такие прогнозы лучше прогнозов с заблаговременностью четыре месяца, которые показывают небольшую распознавательной способность при различении подгрупп среднего и максимального стока. Это означает, что, с учетом наблюденных значений, прогноз с заблаговременностью один месяц показал хорошую распознавательной способность в отношении всех подгрупп.

Выберите.

Сравнительная оперативная характеристика (СОХ)

Сравнительная оперативная характеристика

Сравнительная оперативная характеристика (СОХ)
  • Определяет способность различать события, т.е. отличать события от «несобытий» (наступление событий от их отсутствия)
    • Определяет разрешающую способность прогноза
  • Зависит от наблюденных значений
    • Если наблюденные значения максимального стока ≥ 200 единиц стока
    • Тогда, что предсказывали вероятности прогнозируемых значений – будут или не будут прогнозируемые значения ≥ 200?

Сравнительная оперативная характеристика (СОХ) определяет способность прогностической системы различать события, т.е. отличать события от «несобытий» для заданного условия. В этом случае мы будем использовать такое условие: сток больше или равен 200 единицам стока. СОХ определяет разрешающую способность прогноза, которая связана с распознавательной способностью в отношении событий.

СОХ зависит от наблюденных значений. Таким образом, в нашем примере СОХ может помочь ответить на следующий вопрос: «Если данные наблюдений показали, что максимальный сток достиг или превысил 200 единиц стока, тогда что предсказали соответствующие прогнозные вероятности – достигнут или превысят ли прогнозируемые значения сток в 200 единиц?»

Прежде чем углубляться в числовые показатели, приведем пример того, как пользователи могут использовать информацию о СОХ.

фото канала, протекающего под зданием школы

Рассмотрим двух пользователей прогнозов речного стока. Первый пользователь отвечает за объекты, которые очень зависят от того, будет ли достигнут критический паводочный уровень. Вероятности достижения или превышения критического паводочного уровня, равной 0.2, достаточно для начала подготовки к эвакуации.

Фото баржи на реке

У второго пользователя есть бизнес, который не так сильно зависит от того, повысится ли уровень вода в реке до критического. Он не готовится к паводку, кроме как в случаях, когда вероятность достижения или превышения критического уровня равна 0.80.

Этим пользователям может быть полезно знать, насколько успешно прогностическая система предсказывает события с вероятностью наступления от 0.20 до 0.80. СОХ может помочь с оценкой разрешающей способности этого прогноза.

Интерпретация СОХ

Сравнительная оперативная характеристика (СОХ). Пример 1

Чтобы понять, как следует отвечать на вопросы о разрешающей способности прогнозов, давайте более подробно рассмотрим значение данных на графике СОХ. На оси X отложена вероятность ложного обнаружения события (ВЛОС), а на оси Y – вероятность обнаружения события (ВОС). Для принятия решений относительно того, достигнут или нет прогнозные значения заданный уровень ≥ 200, используется набор возрастающих пороговых значений вероятности прогнозных значений от верхнего правого угла до нижнего левого угла. Каждая точка представляет пороговое значение вероятности прогнозного значения.

Пока что не обращайте внимания на значения ВОС и ВЛОС на осяx X и Y и сосредоточьтесь на вероятностях «прогнозных значений», показанных точками.

Сравнительная оперативная характеристика (СОХ). Пример 2

Предположим, что пороговое значение 1 в правом верхнем углу – это вероятность 0.20 прогнозного стока, равного или превышающего 200 единиц стока. Далее мы имеем увеличивающиеся вероятности пороговых значений, исходя из чего можем предположить, что пороговые значения 2–4 представляют вероятности прогнозных значений, равные 0.40, 0.60 и 0.80.

Рассмотрим пороговое значение 4, представляющее вероятность прогнозного значения 0.80. Это означает, что прогноз оправдается, т.е. событие с заданным условием стока ≥ 200 единиц произойдет с вероятностью 0.80 или выше.

При вероятности ниже 0.80 считается, что прогноз не оправдается, т.е. ожидается, что событие не произойдет. Итак, вы можете спросить: «Означает ли это, что вероятность наступления события, равная 0.75, считается прогнозом «ненаступления» события?» Да, именно это и означает пороговое значение 4.

Теперь вернемся к значениям на осях X и Y. C помощью таблицы сопряженности 2x2, рассмотренной в разделе 5, с категориями «да/нет» для определения наступления или ненаступления события, мы можем рассчитать ВОС и ВЛОС для порогового значения 4. Прогнозом наступления события является любой прогноз с вероятностью 0.80 и более. Прогнозом ненаступления события является любой прогноз с вероятностью меньше 0.80.

Сравнительная оперативная характеристика (СОХ). Пример 3

Если мы посмотрим на график, то заметим, что пороговое значение 4 связано с ВОС равной 0.20 и ВЛОС равной 0.10.

Теперь сравним его с пороговым значением 1, которому соответствует вероятность прогноза только 0.2. Это означает, что любой прогноз достижения 200 единиц стока с вероятностью равной 0.20 или выше, считается прогнозом наступления события. Любые прогностические вероятности менее 0.20 считаются прогнозом ненаступления события. Следует ожидать, что ВОС и ВЛОС будут намного выше, чем для порогового значения 4, поскольку в этом случае имеется гораздо больше прогнозов, которые считаются предсказывающими наступление события. ВОС для порогового значения 1 составляет 0.95, а ВЛОС равняется 0.70.

Что можно сказать насчет точек, расположенных в углах? Поскольку пороговая вероятность становится равной 0.0, каждый прогноз считается прогнозом наступления события, поскольку все, что имеет вероятность 0.0 или выше, считается прогнозом наступления события. Когда наступление события прогнозируется наверняка, в таблице сопряженности 2x2 и ВОС, и ВЛОС возрастают до 1. Это точка в правом верхнем углу. Когда пороговая вероятность приближается к 1.0, тогда все прогнозируемые значения находятся ниже порогового значения и считаются прогнозами ненаступления события. В этом случае в таблице сопряженности 2x2 отображается, что ВОС = ВЛОС = 0, и в результате мы получаем точку в нижнем левом углу.

Сравнительная оперативная характеристика (СОХ). Пример 4

Область под кривой СОХ в направлении к правому нижнему углу можно использовать в качестве числовой оценки. Чем больше эта область, тем выше оценка.

Примеры СОХ

Примеры интерпретации СОХ

Интерпретация СОХ Пример 1

В левом верхнем углу показаны идеальный показатель ВОС, равный 1, и идеальный показатель ВЛОС, равный 0. Идеальный оценочный показатель будет следовать по оси Y из нижнего левого угла в верхний левый угол, а затем в верхний правый угол. Область под кривой СОХ в этом случае равна 1.0.

Интерпретация СОХ Пример 2

Показателем высокого уровня мастерства распознавания событий является кривая СОХ проходящая над диагональю. Это свидетельствует об умении отличать события от несобытий. Другими словами, если событие наблюдалось, выпущенный прогноз указывал на то, что событие произойдет. В этом случае область под кривой СОХ изменяется от 0.5 до 1.0.

Интерпретация СОХ Пример 3

Прогностическая система не способна распознавать события, когда кривая проходит вдоль диагонали. В этом случае ВОС равна ВЛОС. Это говорит о том, что если событие наблюдалось, прогноз с равной вероятностью указывал или на наступление события, или на ненаступление события. В этом случае область под кривой СОХ равна 0.5.

Интерпретация СОХ Пример 4

Отрицательная способность распознавать события наблюдается в том случае, если кривая СОХ проходит ниже диагонали. Это говорит о том, что если событие наблюдалось, то прогноз, вероятнее всего, указывал на ненаступление события. В этом случае область под кривой СОХ изменяется от 0.0 до 0.5.

Контрольные вопросы

Пример сравнительной оперативной характеристики (СОХ)

Здесь представлена кривая СОХ для события, при котором наблюдался максимальный сток. Используя данные этой диаграммы, ответьте на следующие вопросы:

Вопрос 1 из 3

Что говорит кривая СОХ о прогностической вероятности пороговых значений 9 и 10?

Выберите все подходящие варианты.

Правильные ответы – г) и д)

Выберите.

Вопрос 2 из 3

Что говорит кривая СОХ о прогностической вероятности пороговых значений 7 и 8?

Выберите все подходящие варианты.

Правильные ответы – в) и е)

Выберите.

Вопрос 3 из 3

Что говорит кривая СОХ о прогностической вероятности пороговых значений 1 до 6?

Выберите все подходящие варианты.

Правильные ответы – а) и б)

Выберите.

Заключение

ПРВ с многочисленными сегментами

Оценочные критерии и соответствующие диаграммы, представленные в этом модуле, – это только часть всех возможных способов верификации прогнозов. Конкретные оценочные показатели и темы по верификации основаны на руководящих указаниях Группы по системам верификации прогнозов НМС США. Эти оценочные критерии особенно полезны для верификации гидрологических прогнозов. Однако эти критерии широко используются не только в гидрологии.

Фото реечного водомерного поста

Основная задача верификации гидрологических прогнозов заключается в том, чтобы, во-первых, оценить эффективность прогностической системы, во-вторых, улучшить эффективность прогностической системы и, в-третьих, иметь возможность сравнить прогностические системы друг с другом.

Использование верификации

Гидрограф прогнозных и наблюденных значений стока реки Хаусатоник, 10 марта 2008 года

Прогнозисты и пользователи прогнозов могут иметь разные мотивы для верификации.

Фото семейной пары, ловящей рыбу на реке

Например, пользователь может быть больше заинтересован в точности имеющейся прогностической системы, но его особо не волнует то, как ее можно улучшить или как она работает в сравнении с прогностической системой в каком-нибудь другом месте.

Фото прогнозистов

С другой стороны, прогнозист может быть очень заинтересован в улучшении прогнозов, и, поэтому, – в изучении результатов работы других прогностических систем, работающих более эффективно.

Фото мужчины, играющего с собакой на речной косе

У пользователей могут быть самые разные потребности. Некоторых пользователей могут очень интересовать паводки даже небольшой вероятности, и, возможно, они готовы смириться с большей неопределенностью прогнозов.

Фото реечного водомерного поста

Других пользователей могут больше интересовать ситуации, когда вероятность паводка высока.

Фото баржи на реке

А другие пользователи могут не так сильно беспокоиться о паводках, но их может интересовать эффективность прогнозов изменения стока в пределах нормального диапазона его изменчивости в течение сезона.

Критерии верификации гидрологических прогнозов

По этим причинам верификацию нельзя представить одним общим числом или графиком. Полезная верификация обычно включает в себя набор оценочных критериев, подобранных с учетом конкретных потребностей и характеристик ситуации.

Сводная таблица

Снимок экрана веб-страницы сводной таблицы

В интерактивной таблице, доступной по ссылке http://www.meted.ucar.edu/hydro/verification/intro_ru/VerifSummaryPage/VerificationSummaryTable.pdf, приводится сводная информация об оценочных критериях, описанных в этом модуле. Для оценочных критериев, связанных с числовыми оценками, в таблице указан диапазон значений, а также оптимальное значение идеальных прогнозов. Для оценочных критериев, представленных в виде диаграмм, таблица содержит простое визуальное напоминание о том, как будет выглядеть идеальная верификация.

Верификация временных параметров

Гидрограф, показывающий разницу между наблюденным и прогнозируемым временем наступления события

В этом модуле основное внимание уделяется величине гидрологических переменных. Поэтому, для примеров мы использовали значения объема стока и уровня воды. Однако мы признаем важность верификации времени наступления гидрологических событий. Например, прогноз величины пикового стока может быть идеальным, но время этого пикового стока может быть спрогнозировано не точно.

Во многих случаях для верификации временных параметров могут применяться такие же оценки. Разницу между прогнозируемым и наблюденным временем пикового стока можно использовать для расчета различных статистических оценок ошибок.

Лица, внесшие вклад в подготовку этого модуля

Спонсоры COMET

Спонсором® Программы COMET является Национальная метеорологическая служба (НМС) Национального управления океанических и атмосферных исследований (NOAA). Дополнительное финансирование предоставляют:

  • Метеорологическая служба Военно-воздушных сил (AFW)
  • Бюро метеорологии Австралии (BoM)
  • Европейская организация по эксплуатации метеорологических спутников (EUMETSAT)
  • Метеорологическая служба Канады (MSC)
  • Национальный фонд экологического образования (NEEF)
  • Национальная полярная орбитальная спутниковая система мониторинга окружающей среды (NPOESS)
  • Национальная служба экологических спутников, данных и информации NOAA (NESDIS)
  • Командование морской метеорологии и океанографии (NMOC)

Участники проекта

Главный научный консультант

  • Matthew Kelsch — UCAR/COMET

Научный консультант

  • Julie DeMargne — UCAR/NWS
  • Kevin Werner — NWS
  • Holly Hartmann — Аризонский университет

Научный руководитель проекта

  • Lon Goldstein — UCAR/COMET

Руководитель проекта, педагогический дизайн

  • Lon Goldstein — UCAR/COMET

Графический дизайн и интерфейс

  • Steve Deyo — UCAR/COMET
  • Brannan McGill — UCAR/COMET

Мультимедиа

  • Dan Riter — UCAR/COMET
  • Lon Goldstein — UCAR/COMET

Аудио оформление

  • Seth Lamos — UCAR/COMET

Озвучка

  • Matthew Kelsch — UCAR/COMET

HTML-интеграция 2020 COMET

  • Tim Alberta - менеджер проекта
  • Dolores Kiessling — руководитель проекта
  • Steve Deyo - Художник оформитель
  • Gary Pacheco — ведущий веб-разработчик
  • David Russi — перевод
  • Gretchen Throop Williams — веб-разработчик
  • Tyler Winstead — веб-разработчик

Перевод на русский язык

  • Елена Ивкина, переводчик

Научный редактор текста на русском языке

  • Екатерина Гайдукова, канд. техн. наук, РГГМУ, Санкт-Петербург, Россия

Персонал COMET, июнь 2008 г.

Директор

  • Dr. Timothy Spangler

Исполнительный директор

  • Dr. Joe Lamos

Коммерческий директор/руководитель администрации

  • Elizabeth Lessard

Администрация

  • Lorrie Alberta
  • Michelle Harrison
  • Hildy Kane

Графика/Команда медиапродюссирования

  • Steve Deyo
  • Seth Lamos
  • Brannan McGill

Программирование и тех-поддержка

  • Tim Alberta (IT-менеджер)
  • James Hamm
  • Lance Jones
  • Ken Kim
  • Mark Mulholland
  • Wade Pentz (студент)
  • Dan Riter
  • Carl Whitehurst
  • Malte Winkler

Разработка образовательного контента

  • Dr. Patrick Parrish (менеджер команды)
  • Dr. Alan Bol
  • Lon Goldstein
  • Bryan Guarente
  • Dr. Vickie Johnson
  • Bruce Muller
  • Dwight Owens (Дизайн-студия Alphapure)
  • Marianne Weingroff

Метеорологи

  • Dr. Greg Byrd (проект-менеджер кластера)
  • Wendy Schreiber-Abshire (проект-менеджер кластера)
  • Dr. William Bua
  • Patrick Dills
  • Dr. Stephen Jascourt
  • Matthew Kelsch
  • Dolores Kiessling
  • Dr. Arlene Laing
  • Dr. Elizabeth Mulvihill Page
  • Amy Stevermer
  • Dr. Doug Wesley

Автор научного текста

  • Jennifer Frazer

Перевод на испанский

  • David Russi

NOAA/National Weather Service - отдел по подготовке прогнозистов

  • Anthony Mostek - директор филиала
  • Dr. Richard Koehler - руководитель программы гидрологической подготовки
  • Brian Motta, программа подготовки IFPS
  • Dr. Robert Rozumalski, координатор отдела научных и учебных ресурсов SOO (SOO/STRC)
  • Ross Van Til, метеоролог
  • Shannon White, программа подготовки AWIPS

Приглашенные метеорологи, Метеорологическая служба Канады

  • Phil Chadwick

Наверх