среда, 22 апреля 2020 г.

Имитационные модели

Имитационные модели для анализа процессов в экологических сообществах

Подробно рассматриваются коды скриптов R для реализации различных имитационных моделей, осуществляющих анализ  четырех основных процессов (отбор, дрейф, рассеяние, видообразование), которые определяют динамику формирования экологических сообществ, в том числе:
 - имитация стохастической  динамики локального нейтрального  сообщества;
 - моделирование различных типов динамики конкурентного отбора видов в условиях различной их приспособляемости (fitness) к факторам среды; 
 - моделирование периодических процессов, флуктуируюших во времени;
 - анализ условий стабильного совместного сосуществования видов мета-сообщества в результате компромисса между конкуренцией (отбором) и колонизацией (рассеянием);
 - оценка динамики процессов образования регионального пула видов на "материке" и моделирование характера изменчивости видового состава локальных сообществ на "островах" с использованием концепции МакАртура-Вильсона (1967).
 Все цитируемые теоретические обоснования и дополнительные материалы по использованию представленных имитационных моделей содержатся в книге канадского эколога М.Велленда "Теория экологических сообществ" (Vellend M. The theory of ecological communities. Princeton University Press, 2016. 224 р.  - www.ievbras.ru/ecostat/Kiril/R/Biblio_N/R_Eng/Vellend2016.pdf).
Примечание: на фото - автор книги за сбором одуванчиков в канадских лесах.

Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/16_Vellend.pdf 

среда, 12 февраля 2020 г.

Пакеты R по экологии

Анализ данных в экологии: обзор задач, решаемых R

Gavin Simpson «CRAN Task View: Analysis of Ecological and Environmental Data». 16-01-2020.    https://CRAN.R-project.org/view=Environmetrics

Представляемый перевод обзора  содержит краткий список пакетов, доступных в CRAN, которые являются основой для создания различных статистических моделей в экологических исследованиях и получили широкое применение при изучении различных процессов окружающей среды. Пакеты сгруппированы по темам и типам анализа. 
Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/15_View.pdf 

среда, 22 января 2020 г.

Визуализация корреляций

Моделирование корреляционных связей в сообществе с помощью сетей

Использование корреляционных графов (плеяд Терентьева) имеет давнюю традицию для визуализации и анализа связей в сообществах.  Настоящее сообщение рассматривает технику применения функций пакета qgraph версии 1.6.4  на примере анализа таксономической структуры сообществ водных организмов по серии гидробиологических проб. В нем рассматривается целый круг методических вопросов, в том числе:
  • различные формы и элементы дизайна, используемые при построении насыщенных графов корреляционных сетей;
  • выделение статистически значимых связей между узлами;
  • способы задания группировки узлов и использование методов многомерного анализа для целенаправленной ординации и кластеризации данных;
  • частные корреляционные сети и пути решения проблем, связанные с отрицательной определенностью корреляционной матрицы;
  • использование препроцессинга исходного пространства признаков с использованием алгоритма Boruta;
  • нахождение оптимального графа сети с использованием пошаговой процедуры и информационных критериев;
  • оптимизация частной корреляционной сети на основе адаптивного алгоритма регуляризации лассо.
Показано, что пакет qgraph  является  не только превосходным инструментом визуализации сетей, но и содержит полный набор графоаналитических методов, включая «разрежение» взвешенных матриц данных и оптимизацию структуры формируемого графа.
Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/14_QGraph.pdf 

четверг, 5 декабря 2019 г.

Бинарные временные ряды



Рассматриваются проблемы форвардного прогнозирования  значений бинарных временных рядов (binary time series predicting). В качестве рабочего примера  использовался фрагмент базы данных о частоте посещений одним из покупателей в течение трех лет  магазинов популярной российской кампании (может быть загружен с ресурса  
http://www.ievbras.ru/ecostat/Kiril/R/Blog/POS10x.RData ) .
     Ставилась задача предсказания дат наиболее вероятных визитов в течение некоторого тестируемого периода. Наилучшее решение искалось с использованием трех основных концепций построения моделей временных рядов:
        1. В классе обобщенных моделей, использующих пространства состояний (Generalized State Space Modeling) . С помощью функций пакета glarma (Generalized Linear AutoRegressive Moving Average) выполнялось построение линейных моделей авторегрессии - скользящего среднего для дискретной случайной величины, имеющей Бернулли, биномиальное, Пуассона или отрицательное биномиальное распределение. Другой вариант моделей того же бинарного временного ряда был получен с использованием пакета tscount.
       2. На основе байесовской структурной модели временных рядов (Bayesian structural time series). Расчеты выполнялись с использованием функций, реализованных в пакете bsts.
     3. С использованием однородных марковских цепей дискретного временного ряда.  Классический подход к моделированию марковских процессов (без какого-либо ощутимого успеха) был  апробирован на основе пакета  markovchain.  Значительно более впечатляющие результаты прогнозирования были получены  при использовании другого пакета depmixS4, который реализует в среде программирования R общие принципы формирования стандартных и скрытых моделей марковских цепей. 
     Результаты тестов на форвардное прогнозирование временного ряда, полученные вышеперечисленными пятью пакетами, сравнивались с простейшим способом предсказания на основе оценок вероятностной плотности распределения событий. 
С методической точки зрения при  могут быть интересны некоторые приемы обработки исходных данных на основе библиотеки  "tidy data" Х.Викхэма 

Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/13_BTS.pdf 

понедельник, 19 августа 2019 г.

Потоки и тибблы

Конвейеры, тибблы и другие средства управления данными в R

        Обсуждаются современные концепции управления "аккуратными" данными, оформленные  Х.Викхэмом в виде философии "tidy data" и реализованные в пакете tidyverse. Мы приводим свободную компиляцию (с привлечением иных источников) некоторых разделов книги (Wickham, Grolemund, 2017). Большинство примеров, представленных нами, также заимствованы из этой книги. 
     
Сообщение включает следующее содержание:
    1. Рассматривается идеология создания "конвейеров" (или "трубопроводов" - pipeline), представляющих стандартизированные цепочки последовательных действий по обработке данных, и представлены новые объекты данных "тибблы" (tibbles), являющиеся усовершенствованным вариантом таблиц data.frame
   2. Описаны пять ключевых функций  пакета  dplyr, которые позволяют решить большинство задач, связанных с обработкой данных (выборка, сортировка, группировка, создание новых переменных). Приводятся многочисленные примеры создаваемых конвейеров.
    3. Представлены принципы организации запросов к реляционным базам данных с использованием библиотеки tidyverse.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/12_Tidyverse.pdf




вторник, 9 июля 2019 г.

Адекватность

Оценка адекватности регрессионных моделей

 В настоящем сообщении обсуждаются способы оценки адекватности, которая определяет степень применимости моделей для каких-то практических действий (прогнозирования, управления и проч.). Рассматривается два набора тестов, по результатам которых модель признается неадекватной, если отклоняются следующие утверждения нулевой гипотезы:
  1. Постоянство остаточной дисперсии модели (гомоскедастичность);  случайность и независимость  выборочных остатков; равенство нулю их среднего  и согласие с  распределением по постулируемому закону;
   2. Незначимое превышение оценки дисперсии остатков, обусловленных неадекватностью модели, над дисперсией "естественного" разброса случайных наблюдений отклика Y .

     Сообщение состоит из 7 разделов:
   В первом разделе мы позволили себе немого расслабиться и "пофилософствовать" относительно гносеологических и праксеологических отправных точках термина "адекватность".
   Раздел 2 посвящен простым тестам, используемым при анализе гомоскедастичности, случайности и независимости остатков. Как современная альтернатива им предложен метод диагностики модели с использованием кумулятивных остатков, описанный в разделе 3.
   Раздел 4 посвящен анализу данных эксперимента, проводимого с использованием повторностей (т.е. параллельных опытов). Показаны механизм выделения дисперсии "чистой ошибки" отклика и программная реализация теста, оценивающего значимость потерь при подгонке модели (lack of fit).
   Если повторностей в эксперименте нет, то правомочен вопрос: удастся ли составить из выборочных наблюдений однородные группы, которые условно можно назвать "почти параллельными опытами"? В разделах 5 и 6 показана неопределенность и многовариантность результатов кластерного анализа, используемого для этой цели, а также сделан литературный обзор основных стратегических направлений, направленных на получение состоятельной оценки "чистой ошибки" отклика при отсутствии повторностей.
   В разделе 7 рассматриваются функции диагностики адекватности нелинейных моделей, разработанные в пакете drc.
Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/11_Adequat.pdf  



суббота, 11 мая 2019 г.

Спецификация модели

Выбор функциональной формы регрессионной модели

В настоящем сообщении обсуждаются три распространенные проблемы, возникающие при выборе спецификации регрессионной модели.
1. Можно ли ограничиться обыкновенной линейной регрессией для описания зависимости Y = f(X) или необходимо выполнить поиск наиболее адекватной нелинейной модели?
Действительно, далеко не всегда, вглядываясь в размытое облако экспериментальных точек на графике Y-X, можно с уверенностью принять однозначное решение. Выборочная оценка коэффициента корреляции или статистическая значимость коэффициента угла наклона не могут помочь нам в этом вопросе. Мы приводим скрипты для расчета корреляционного отношения и проверки статистической гипотезы о линейности функциональной связи на его основе. Другим вариантом теста на линейность спецификации модели является проверка по Фишеру отношения остаточной дисперсии к дисперсии воспроизводимости отклика (оценка потерей при подгонке lack of fit ).

2. Насколько можно доверять оценкам статистической значимости параметров модели?
Обычно превалирует грубое эмпирическое правило - отбросить переменные, статистическая значимость которых превысит 5% порог. К сожалению, существует много нюансов, усложняющих выполнение процедуры Вальда: гетероскедастичность ошибок, сингулярность ковариационных матриц, оценка реальной доли отброшенных переменных в остатках, проблема величины штрафа за усложнение модели и др. Оценки значимости также могут существенно колебаться от объема выборки (числом измерений можно "купить" любую статистическую значимость), последовательности включения предикторов в модель и т.д. Возникает опасность потери членов модели, важных для последующего использования.
Мы показываем некоторые результаты имитации оценок значимости коэффициентов на примере полиномиальной модели (по отдельности или для их комбинаций), а также возможность использования обобщенного метода наименьших квадратов и некоторых схем исправления ковариационной матрицы для получения робастного решения. Приведен пример расчета бутстреповских оценок значимости коэффициентов.

3. Что может быть критерием для вывода о правильности выбранной нами функциональной формы?
Таких критериев несколько, но ни один из них не является в полной мере работоспособным. Мы предлагаем простую (и, вероятно, дискуссионную) процедуру - использовать в качестве "эталона" непараметрическую модель, построенную на основе ядерных функций, сплайнов или локальной регрессии LOESS. Эта процедура проста и иллюстративна. На первом этапе строится непараметрическая модель и находятся ее 95%-ные доверительные интервалы. Далее, для каждой модели-претендента проводится эмпирическая линия регрессии и, если она целиком помещается в пределах доверительной полосы модели сглаживания, то спецификация параметрической модели является верной. Попутно мы показываем некоторые иные возможности непараметрических моделей с использованием пакета np.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/10_NonLinear.pdf