среда, 25 января 2023 г.

Модели прогнозирования

 Велосипедисты на мосту: пример построения моделей прогнозирования

     Подробно рассматриваются различные  модели оценки плотности велосипедного движения через р. Рейн по мосту Кеннеди в Бонне. Исходными данными являются зарегистрированное ежедневное число велосипедистов (2015-2021 г.г)  и наблюдаемые метеорологические условия в тот же день (температура, интенсивность осадков, скорость ветра и др. -  всего 9 показателей).
      Эти данные анализируются под двумя углами зрения. В первой части сообщения  по полному технологическому циклу проводится подбор классической модели линейной регрессии. Сюда входит заполнение пропущенных значений, оценка мультиколлинеарности комплекса исходных предикторов, выявление возможной нелинейности их связи с откликом, селекция наиболее информативного набора метеорологических переменных. Были построены две наилучших линейных модели: первая - по внутреннему информационному AIC-критерию, вторая - из условия максимальной точности прогноза (минимума ошибки предсказания) на независимой контрольной выборке. Выполнялись также выявление выбросов, оценка  статистической значимости моделей и их проверка на соответствие основным предпосылкам линейной регрессии. Параллельно на тех же переменных строились модель случайного леса (Random Forrest) , многослойный персептрон и рекуррентная нейронная сеть Элмана.   
      Во второй части сообщения в тестируемые модели включались  переменные,  традиционные для временных рядов, и описывающие автокорреляцию, многолетний тренд а также недельные и сезонные периодические составляющие. Без особого успеха на основе этих функций строились модели экспоненциального сглаживания (Хольта-Винтерса), авторегрессии и скользящего среднего (ARIMA), а  также многослойный персептрон (NNAR) и машина с экстремальным обучением (ELM). Существенный прогресс произошел при использовании обобщенных аддитивных моделей (GAM) на основе пакета пакета Prophet ("пророк"). Последовательное включение в модель, наряду с функциями, описывающими кусочно-линейный тренд и сезонные компоненты на основе аппроксимации рядами Фурье,  дополнительных регрессоров, связанных с важнейшими погодными условиями и эффектами праздничных дней и особых периодов, привело к созданию хорошо интерпретируемых моделей, обладающих одновременно неплохой ошибкой предсказания. Однако, вне конкуренции по критерию качества прогноза оказались метода самоорганизации: модель группового учета аргументов (МГУА - GMDH) и  рекуррентная нейронная сеть Элмана на основе исходных переменных смешанного состава (7 лаговых переменных, "свертка" из 20 гармоник быстрого дискретного преобразования Фурье  и трех метеорологических факторов).
            Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/27_Velo.pdf  
Исходные данные, обрабатываемые с помощью скриптов, представленных в сообщении,  можно скачать  с http://www.ievbras.ru/ecostat/Kiril/R/Blog/Velo.RData  .


четверг, 1 декабря 2022 г.

Ассоциативность видов on-line

  Веб-приложение Shinny для анализа ассоциативности объектов в сетевых структурах 

     Экологические данные часто представлены таблицами встречаемости (1) или отсутствия (0) того или иного вида в пробах или местообитаниях. Для таких бинарных пространств описан многочисленный класс мер связи между каждой парой объектов, которые обычно основаны на  частоте их относительной совместной встречаемости  (индексы Жаккара, Съеренсена, Охаи и т.д.).  Общей проблемой этих эвристических мер является отсутствие четкого критерия оценки их статистической значимости на основе стандартной процедуры проверки гипотез. Если, например, был рассчитан коэффициент Съеренсена S = 0.45, то у исследователя нет оснований утверждать, что сравниваемые виды имеют сходное распределение  по изучаемой территории, поскольку их кажущая связь может быть обусловлена случайными причинами.
      Настоящее сообщение описывает методику оценки значимости ассоциаций для пар видов путем моделирования эмпирических данных дискретными распределениями Х – гипергеометрическим или биномиальным. Если наблюдаемая вероятность Р(х) совместного обнаружения двух видов в x из N проб отвечает условию    
Р(х) = P [X £ x] > (1 – pcrit) , то виды считаются положительно ассоциированными на уровне статистической значимости pcrit. Если справедливо условие   
Р(х) = P[X > x] > (1 – pcrit), то принимается предположение об отрицательной ассоциативности видов, т.е. их несовместимости. В противном случае считается, что распределение видов по участкам независимо друг от друга, а частота их совместного появления не отличается от случайной.
      Для визуализации всех статистически значимых связей в изучаемом экологическом сообществе  удобно использовать сеть, в которой узлы представляют выявленные виды сообщества, а ребра с весами  Р(х) – ассоциации между парами видов, превышающие уровень доверительной вероятности при анализе заданного дискретного распределения. Для удобства содержательной интерпретации конфигурации графа целесообразно осуществить группировку его вершин, исходя из условий максимальной компактности и связности выделяемых кластеров.
      Для реализации всей описанной методики вашему вниманию предлагается интерактивное web-приложение на базе пакета Shinny (разработчик - н.с. ИБВВ РАН Д.Г. Селезнев), которое позволяет провести обработку данных без загрузки статистической среды R. Любой заинтересованный исследователь может обратиться on-line с помощью своего Интернет-браузера к его клиентской части по URL  http://apps.ibiw.ru/coobs загрузить файл со своими исходными данными и получить табличные и графические файлы с результатами расчетов.
     Приложение выполняет визуализацию различных вариантов графов построенной сети с использованием функционала пакета igraph, при этом  настройка изображения выполняется интерактивно с помощью набора параметров, выведенных на панель управления. Пользователь также может выбрать подходящий алгоритм кластеризации вершин графа из 7 возможных методов, рекомендуемых в научной литературе.
      Текст сообщения, содержащий описание методики и особенностей работы с web-приложением, может быть загружен с ресурса
 

четверг, 3 ноября 2022 г.

Визуализация сетей iGraph

 Визуализация корреляционных сетей с использованием пакета iGraph

     Эффективным методом изучения  большинства естественных и социальных систем является их графическое представление в форме сети - набора объектов (вершин или узлов графа), объединенных логическими или физическими связями (ребрами). Визуальное представление сетей позволяет получить компактную, целостную и наглядную картину явлений, происходящих в системе.  Формальный анализ структуры сформированного графа различными математическими методами дает возможность решать такие задачи как отбор наиболее информативных звеньев системы, выделение компактных сообществ и кластеризация, нахождение дерева кратчайшего пути и построение сети максимальной пропускной способности. 
    Ранее мы рассматривали моделирование корреляционных связей в экологических сообществах с помощью сетей, построенных с использованием пакета qgraph. В настоящем сообщении мы продолжим этот разговор, рассматривая работу с пакетом igraph, который, в принципе, предназначен для сходных целей, но и имеет существенные концептуальные отличия. Если qgraph ориентирован, в основном, на пристальный анализ корреляционных связей, то igraph имеет более универсальный характер и включает развитый аппарат настройки свойств графической визуализации. 
      В качестве  примера мы используем корреляционные матрицы, сформированные по результатам многолетнего изучения донных сообществ малых и средних рек бассейна Средней и Нижней Волги, а также данные мониторинга абиотических факторов в этом регионе. Полный комплект исходных данных можно скачать здесь . 
      Текст сообщения в формате PDF может быть загружен с ресурса

среда, 27 апреля 2022 г.

Структура фитоценозов

Анализ пространственной структуры растительных сообществ с использованием пакетов R
 
     В этом сообщении мы сталкиваемся с определенным феноменом:  Мартынова Анна, ученица 10 кл. из г. Кумертау, самостоятельно сделала геоботаническое описание пробной площадки в башкирской степи, написала необходимые скрипты на языке R, выполнила расчеты по анализу пространственной структуры фитоценоза, осмыслила их и написала вполне полноценную научную статью (можно скачать здесь). Вспомните, что вы сами делали в 17 лет!!!
     Сообщение состоит из 5 разделов  по материалам работы А.Мартыновой:
1. Подготовка и предварительный анализ фрейма с результатами геоботанических наблюдений (файл с исходными данными можно скачать здесь).
2. Анализ пространственной структуры фитоценоза: построение карт популяционных плотностей на основе пакета spatstat, выделение доминирующих видов, оценка корреляционных связей и т.д.
3. Проверка гипотезы о характере пространственного размещения точек с использованием функций Рипли.
4. Построение пространственных кластеров с группировка по видовому составу и разнообразию.
5. Анализ пространственной изменчивости видового состава с использованием индексов zeta-разнообразия и пакета zetadiv (представлено В.Шитиковым). 
 
Текст сообщения в формате PDF может быть загружен с ресурса
 

пятница, 24 сентября 2021 г.

Экологические ниши

Экологические ниши, их современная интерпретация и моделирование с использованием пакета  ecospat

 Экологическая ниша - термин, пользующийся странной популярностью:  многие употребляют, но немногие задумываются над его смыслом.  Чем отличается ниша Гринелла от ниши Элтона? Стоит ли рассуждать о реализованных нишах, если примеры их построения практически неизвестны?  В этом сообщении мы делаем достаточно подробный обзор статей  Дж. Соберона (Soberon) и А. Петерсона (Peterson), последовательно пытающихся разобраться в этих непростых вопросах  (правда на уровне простеньких картинок, иллюстрирующих пересечения неких умозрительных множеств). 
Но для тех, кому захочется самому  построить гринеллевскую фундаментальную нишу, мы рекомендуем обратить внимание на R-пакет  ecospat.  Сразу оговоримся, что многое в этом пакете не понравилось. Раздел "предварительного анализа данных" вроде бы содержит полезные функции разведывательных операций, но напоминает "окрошечную смесь" из пространственной автоковариации, филогенетических индексов, оценок сопряженности встречаемости видов, сходства географических пространств и чего-то еще маловменяемого. Все делалось как-то впопыхах и лучше для выполнения этих расчетов обращаться к специализированным пакетам. Раздел, посвященный  моделям коллективного прогнозирования, может оказаться полезным (наряду с пакетом ForecastCombinations и многими другими на ту же тему) именно в случае географического прогнозирования. Но при выполнении вычислений выводится большое количество мало нужной информации, тогда как ко многим ключевым показателям добраться не всегда удобно. Раздел, посвященный пространственно-обусловленному моделированию совокупности видов (SESAM) также оказывает несколько отстраненное впечатление. 
При всем этом, функции построения пространства ниш и оценки их перекрытия выполнены на весьма приличном уровне.  Пакет R-функций ecospat (Broennimann et al., 2012; Di Cola et al., 2017) дает возможность построить произвольно сглаженную поверхность индекса экологической пригодности в осях двух главных компонент, основываясь на традиционной таблице «местообитания – переменные среды», что позволяет учесть полный набор факторов. Это - важный момент, поскольку в известных пакетах virtualspeciesdismo и др., ортогональное пространство наименьшей вариации (РС) формируется на основе растров геоклиматической информации, представленной в ячейках ("пикселах") равномерной сетки географических координат высокого разрешения. Представить в такой форме локальные характеристики речных биотопов, такие как состав химических ингредиентов, гидрологические параметры водотока, тип донного грунта и т.д., традиционно ключевые для гидробиологии, представляется невозможным. 
В нашем сообщении мы подробно рассматриваем функции построения и перекрытия одномерных и двумерных ниш на собственном примере - гидробиологической съемке донных сообществ в малых реках бассейна Средней и Нижней Волги.
 
        Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/23_Niche.pdf        
Исходные данные, обрабатываемые с помошью скриптов, представленных в сообщении  можно скачать  с http://www.ievbras.ru/ecostat/Kiril/R/Blog/WB_niche.RData  .

воскресенье, 20 июня 2021 г.

Деревья таксономии

Систематика, таксономия, филогенетика

      В настоящем сообщении  рассматриваются возможности анализа таксономической структуры экологических  сообществ на основе филогенетических представлений.  В качестве примера мы оцениваем степень влияния такого ведущего фактора водной среды как минерализация на тесноту родственных связей между видами макрозообентоса.
      Особое внимание обращается на подготовку исходных данных в форме таксономической таблицы. Показано, как с помощью функций пакета  taxize можно с использованием различных всемирных баз данных уточнить современные названия видов или получить идентификаторы  более высоких таксономических уровней вплоть до superKingdom. Приводятся скрипты, как можно выполнить тестирование и корректировку названий таксонов в исходной "сырой"  таблице.
     Мы придерживаемся точки зрения, что в классических задачах экологии сообществ смысл использования филогенетических деревьев с датированием эволюционных событий далеко не  очевиден. Нет никаких оснований непосредственно связывать закономерности формирования структуры сообщества из уже существующих видов с их эволюционной историей.   Однако молекулярная генетика и биоинформатика к настоящему времени накопили столь внушительный арсенал средств сравнительного филогенетического анализа, что всемерная апробация этих методов в смежных отраслях биологии и экологии может только приветствоваться.
     В представленном сообщении речь идет не о филогенетических деревьях, а о таксономических кладограммах, основанных на актуальной биологической систематике. Мы построили дерево, узлами которых служат конкретные таксоны разного ранга, а длина каждой ветви принималась равной таксономическому расстоянию по  Clarke-Warwick . И если иногда это дерево трактовалось как филогенетическое, то это просто условности применения филогенетических методов. Легко показать (Chao et al. 2014), что для наших кладограмм вполне корректно использование большинства математических выражений и процедур анализа топологии филогенетических деревьев с датированием эволюционных событий. В частности, нами приводятся расчеты  филогенетического сигнала, оценивающего  насколько «родственные виды походят друг на друга больше, чем виды, случайно взятые из того же дерева». Мера филогенетического сигнала в отношении соленосной толерантности видов оценивалась по двум статистикам - лямбда Пагеля и К Блумберга, которые равны нулю при отсутствии зависимости и возрастают по мере увеличения корреляционной связи между степенью таксономического родства и тестируемой характеристикой.
     Другое дерево систематики мы построили с неопределенными длинами ветвей. Эта кладограмма использовалась для визуализации того, как среднегрупповая соленосная толерантность меняется для разных клад, объединяющих подмножества таксонов. Для этого применялись как скрипты собственной разработки, так и функции пакетов phytools и ggtree.
      Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/22_Phylogen.pdf 

понедельник, 22 марта 2021 г.

Индексы нестабильности

Анализ статистической связи между обилием видов и абиотическими факторами с использованием индексов нестабильности

     Коллектив испанских экологов из Университета в г. Виго, возглавляемый К.Гисандом, успешно использует в своих исследованиях различные версии индексов нестабильности (Instability index). В настоящем сообщении приводятся скрипты на языке R, позволяющие рассчитать и выполнить дальнейший анализ этих индексов на основе формулы дивергенции Кульбака-Лейблера, т.е. по сути найти  тот информационный выигрыш, который исследователь получает, рассматривая конкретную реализацию случайной величины вместо ее выборочного среднего значения.
     В качестве примера расчетов мы использовали данные, сформированные по результатам многолетнего изучения донных сообществ малых и средних рек бассейна Средней и Нижней Волги, а также мониторинга абиотических факторов в этом регионе.  Исходные таблицы размещены в файле "InStab_dat.RData", который необходимо загрузить с общедоступного ресурса http://www.ievbras.ru/ecostat/Kiril/R/Blog/InStab_dat.RData и поместить в рабочий каталог среды R.
     На первом этапе анализа рассчитывается комплект индексов нестабильности для каждого из 8 абиотических показателей и каждого из 147 видов макрозообентоса применительно к обследованным 132 участкам рек. На втором этапе строятся модели Random Forrest зависимости величины индекса для каждого вида  от от нестабильности факторов среды и оцениваются показатели их сравнительной важности (importance). На третьем этапе строятся графики и карты, позволяющие интерпретировать выполненные расчеты.
Расширенная версия сообщения, опубликованная после 20 июня 2021 г., включает введение и подробное обсуждение проблемы  и полученных результатов

Текст сообщения в формате PDF может быть загружен с ресурса  
http://www.ievbras.ru/ecostat/Kiril/R/Blog/21_Instab.pdf