Велосипедисты на мосту: пример построения моделей прогнозирования
Подробно рассматриваются различные модели оценки плотности велосипедного движения через р. Рейн по мосту Кеннеди в Бонне. Исходными данными являются зарегистрированное ежедневное число велосипедистов (2015-2021 г.г) и наблюдаемые метеорологические условия в тот же день (температура, интенсивность осадков, скорость ветра и др. - всего 9 показателей).
Эти данные анализируются под двумя углами зрения. В первой части сообщения по полному технологическому циклу проводится подбор классической модели линейной регрессии. Сюда входит заполнение пропущенных значений, оценка мультиколлинеарности комплекса исходных предикторов, выявление возможной нелинейности их связи с откликом, селекция наиболее информативного набора метеорологических переменных. Были построены две наилучших линейных модели: первая - по внутреннему информационному AIC-критерию, вторая - из условия максимальной точности прогноза (минимума ошибки предсказания) на независимой контрольной выборке. Выполнялись также выявление выбросов, оценка статистической значимости моделей и их проверка на соответствие основным предпосылкам линейной регрессии. Параллельно на тех же переменных строились модель случайного леса (Random Forrest) , многослойный персептрон и рекуррентная нейронная сеть Элмана.
Эти данные анализируются под двумя углами зрения. В первой части сообщения по полному технологическому циклу проводится подбор классической модели линейной регрессии. Сюда входит заполнение пропущенных значений, оценка мультиколлинеарности комплекса исходных предикторов, выявление возможной нелинейности их связи с откликом, селекция наиболее информативного набора метеорологических переменных. Были построены две наилучших линейных модели: первая - по внутреннему информационному AIC-критерию, вторая - из условия максимальной точности прогноза (минимума ошибки предсказания) на независимой контрольной выборке. Выполнялись также выявление выбросов, оценка статистической значимости моделей и их проверка на соответствие основным предпосылкам линейной регрессии. Параллельно на тех же переменных строились модель случайного леса (Random Forrest) , многослойный персептрон и рекуррентная нейронная сеть Элмана.
Во второй части сообщения в тестируемые модели включались переменные, традиционные для временных рядов, и описывающие автокорреляцию, многолетний тренд а также недельные и сезонные периодические составляющие. Без особого успеха на основе этих функций строились модели экспоненциального сглаживания (Хольта-Винтерса), авторегрессии и скользящего среднего (ARIMA), а также многослойный персептрон (NNAR) и машина с экстремальным обучением (ELM). Существенный прогресс произошел при использовании обобщенных аддитивных моделей (GAM) на основе пакета пакета Prophet ("пророк"). Последовательное включение в модель, наряду с функциями, описывающими кусочно-линейный тренд и сезонные компоненты на основе аппроксимации рядами Фурье, дополнительных регрессоров, связанных с важнейшими погодными условиями и эффектами праздничных дней и особых периодов, привело к созданию хорошо интерпретируемых моделей, обладающих одновременно неплохой ошибкой предсказания. Однако, вне конкуренции по критерию качества прогноза оказались метода самоорганизации: модель группового учета аргументов (МГУА - GMDH) и рекуррентная нейронная сеть Элмана на основе исходных переменных смешанного состава (7 лаговых переменных, "свертка" из 20 гармоник быстрого дискретного преобразования Фурье и трех метеорологических факторов).
Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/27_Velo.pdf
Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/27_Velo.pdf
Исходные данные, обрабатываемые с помощью скриптов, представленных в сообщении, можно скачать с http://www.ievbras.ru/ecostat/Kiril/R/Blog/Velo.RData .
Комментариев нет:
Отправить комментарий