среда, 25 января 2023 г.

Модели прогнозирования

 Велосипедисты на мосту: пример построения моделей прогнозирования

     Подробно рассматриваются различные  модели оценки плотности велосипедного движения через р. Рейн по мосту Кеннеди в Бонне. Исходными данными являются зарегистрированное ежедневное число велосипедистов (2015-2021 г.г)  и наблюдаемые метеорологические условия в тот же день (температура, интенсивность осадков, скорость ветра и др. -  всего 9 показателей).
      Эти данные анализируются под двумя углами зрения. В первой части сообщения  по полному технологическому циклу проводится подбор классической модели линейной регрессии. Сюда входит заполнение пропущенных значений, оценка мультиколлинеарности комплекса исходных предикторов, выявление возможной нелинейности их связи с откликом, селекция наиболее информативного набора метеорологических переменных. Были построены две наилучших линейных модели: первая - по внутреннему информационному AIC-критерию, вторая - из условия максимальной точности прогноза (минимума ошибки предсказания) на независимой контрольной выборке. Выполнялись также выявление выбросов, оценка  статистической значимости моделей и их проверка на соответствие основным предпосылкам линейной регрессии. Параллельно на тех же переменных строились модель случайного леса (Random Forrest) , многослойный персептрон и рекуррентная нейронная сеть Элмана.   
      Во второй части сообщения в тестируемые модели включались  переменные,  традиционные для временных рядов, и описывающие автокорреляцию, многолетний тренд а также недельные и сезонные периодические составляющие. Без особого успеха на основе этих функций строились модели экспоненциального сглаживания (Хольта-Винтерса), авторегрессии и скользящего среднего (ARIMA), а  также многослойный персептрон (NNAR) и машина с экстремальным обучением (ELM). Существенный прогресс произошел при использовании обобщенных аддитивных моделей (GAM) на основе пакета пакета Prophet ("пророк"). Последовательное включение в модель, наряду с функциями, описывающими кусочно-линейный тренд и сезонные компоненты на основе аппроксимации рядами Фурье,  дополнительных регрессоров, связанных с важнейшими погодными условиями и эффектами праздничных дней и особых периодов, привело к созданию хорошо интерпретируемых моделей, обладающих одновременно неплохой ошибкой предсказания. Однако, вне конкуренции по критерию качества прогноза оказались метода самоорганизации: модель группового учета аргументов (МГУА - GMDH) и  рекуррентная нейронная сеть Элмана на основе исходных переменных смешанного состава (7 лаговых переменных, "свертка" из 20 гармоник быстрого дискретного преобразования Фурье  и трех метеорологических факторов).
            Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/27_Velo.pdf  
Исходные данные, обрабатываемые с помощью скриптов, представленных в сообщении,  можно скачать  с http://www.ievbras.ru/ecostat/Kiril/R/Blog/Velo.RData  .


Комментариев нет:

Отправить комментарий