четверг, 5 декабря 2019 г.

Бинарные временные ряды



Рассматриваются проблемы форвардного прогнозирования  значений бинарных временных рядов (binary time series predicting). В качестве рабочего примера  использовался фрагмент базы данных о частоте посещений одним из покупателей в течение трех лет  магазинов популярной российской кампании (может быть загружен с ресурса  
http://www.ievbras.ru/ecostat/Kiril/R/Blog/POS10x.RData ) .
     Ставилась задача предсказания дат наиболее вероятных визитов в течение некоторого тестируемого периода. Наилучшее решение искалось с использованием трех основных концепций построения моделей временных рядов:
        1. В классе обобщенных моделей, использующих пространства состояний (Generalized State Space Modeling) . С помощью функций пакета glarma (Generalized Linear AutoRegressive Moving Average) выполнялось построение линейных моделей авторегрессии - скользящего среднего для дискретной случайной величины, имеющей Бернулли, биномиальное, Пуассона или отрицательное биномиальное распределение. Другой вариант моделей того же бинарного временного ряда был получен с использованием пакета tscount.
       2. На основе байесовской структурной модели временных рядов (Bayesian structural time series). Расчеты выполнялись с использованием функций, реализованных в пакете bsts.
     3. С использованием однородных марковских цепей дискретного временного ряда.  Классический подход к моделированию марковских процессов (без какого-либо ощутимого успеха) был  апробирован на основе пакета  markovchain.  Значительно более впечатляющие результаты прогнозирования были получены  при использовании другого пакета depmixS4, который реализует в среде программирования R общие принципы формирования стандартных и скрытых моделей марковских цепей. 
     Результаты тестов на форвардное прогнозирование временного ряда, полученные вышеперечисленными пятью пакетами, сравнивались с простейшим способом предсказания на основе оценок вероятностной плотности распределения событий. 
С методической точки зрения при  могут быть интересны некоторые приемы обработки исходных данных на основе библиотеки  "tidy data" Х.Викхэма 

Текст сообщения в формате PDF может быть загружен с ресурса
http://www.ievbras.ru/ecostat/Kiril/R/Blog/13_BTS.pdf 

понедельник, 19 августа 2019 г.

Потоки и тибблы

Конвейеры, тибблы и другие средства управления данными в R

        Обсуждаются современные концепции управления "аккуратными" данными, оформленные  Х.Викхэмом в виде философии "tidy data" и реализованные в пакете tidyverse. Мы приводим свободную компиляцию (с привлечением иных источников) некоторых разделов книги (Wickham, Grolemund, 2017). Большинство примеров, представленных нами, также заимствованы из этой книги. 
     
Сообщение включает следующее содержание:
    1. Рассматривается идеология создания "конвейеров" (или "трубопроводов" - pipeline), представляющих стандартизированные цепочки последовательных действий по обработке данных, и представлены новые объекты данных "тибблы" (tibbles), являющиеся усовершенствованным вариантом таблиц data.frame
   2. Описаны пять ключевых функций  пакета  dplyr, которые позволяют решить большинство задач, связанных с обработкой данных (выборка, сортировка, группировка, создание новых переменных). Приводятся многочисленные примеры создаваемых конвейеров.
    3. Представлены принципы организации запросов к реляционным базам данных с использованием библиотеки tidyverse.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/12_Tidyverse.pdf




вторник, 9 июля 2019 г.

Адекватность

Оценка адекватности регрессионных моделей

 В настоящем сообщении обсуждаются способы оценки адекватности, которая определяет степень применимости моделей для каких-то практических действий (прогнозирования, управления и проч.). Рассматривается два набора тестов, по результатам которых модель признается неадекватной, если отклоняются следующие утверждения нулевой гипотезы:
  1. Постоянство остаточной дисперсии модели (гомоскедастичность);  случайность и независимость  выборочных остатков; равенство нулю их среднего  и согласие с  распределением по постулируемому закону;
   2. Незначимое превышение оценки дисперсии остатков, обусловленных неадекватностью модели, над дисперсией "естественного" разброса случайных наблюдений отклика Y .

     Сообщение состоит из 7 разделов:
   В первом разделе мы позволили себе немого расслабиться и "пофилософствовать" относительно гносеологических и праксеологических отправных точках термина "адекватность".
   Раздел 2 посвящен простым тестам, используемым при анализе гомоскедастичности, случайности и независимости остатков. Как современная альтернатива им предложен метод диагностики модели с использованием кумулятивных остатков, описанный в разделе 3.
   Раздел 4 посвящен анализу данных эксперимента, проводимого с использованием повторностей (т.е. параллельных опытов). Показаны механизм выделения дисперсии "чистой ошибки" отклика и программная реализация теста, оценивающего значимость потерь при подгонке модели (lack of fit).
   Если повторностей в эксперименте нет, то правомочен вопрос: удастся ли составить из выборочных наблюдений однородные группы, которые условно можно назвать "почти параллельными опытами"? В разделах 5 и 6 показана неопределенность и многовариантность результатов кластерного анализа, используемого для этой цели, а также сделан литературный обзор основных стратегических направлений, направленных на получение состоятельной оценки "чистой ошибки" отклика при отсутствии повторностей.
   В разделе 7 рассматриваются функции диагностики адекватности нелинейных моделей, разработанные в пакете drc.
Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/11_Adequat.pdf  



суббота, 11 мая 2019 г.

Спецификация модели

Выбор функциональной формы регрессионной модели

В настоящем сообщении обсуждаются три распространенные проблемы, возникающие при выборе спецификации регрессионной модели.
1. Можно ли ограничиться обыкновенной линейной регрессией для описания зависимости Y = f(X) или необходимо выполнить поиск наиболее адекватной нелинейной модели?
Действительно, далеко не всегда, вглядываясь в размытое облако экспериментальных точек на графике Y-X, можно с уверенностью принять однозначное решение. Выборочная оценка коэффициента корреляции или статистическая значимость коэффициента угла наклона не могут помочь нам в этом вопросе. Мы приводим скрипты для расчета корреляционного отношения и проверки статистической гипотезы о линейности функциональной связи на его основе. Другим вариантом теста на линейность спецификации модели является проверка по Фишеру отношения остаточной дисперсии к дисперсии воспроизводимости отклика (оценка потерей при подгонке lack of fit ).

2. Насколько можно доверять оценкам статистической значимости параметров модели?
Обычно превалирует грубое эмпирическое правило - отбросить переменные, статистическая значимость которых превысит 5% порог. К сожалению, существует много нюансов, усложняющих выполнение процедуры Вальда: гетероскедастичность ошибок, сингулярность ковариационных матриц, оценка реальной доли отброшенных переменных в остатках, проблема величины штрафа за усложнение модели и др. Оценки значимости также могут существенно колебаться от объема выборки (числом измерений можно "купить" любую статистическую значимость), последовательности включения предикторов в модель и т.д. Возникает опасность потери членов модели, важных для последующего использования.
Мы показываем некоторые результаты имитации оценок значимости коэффициентов на примере полиномиальной модели (по отдельности или для их комбинаций), а также возможность использования обобщенного метода наименьших квадратов и некоторых схем исправления ковариационной матрицы для получения робастного решения. Приведен пример расчета бутстреповских оценок значимости коэффициентов.

3. Что может быть критерием для вывода о правильности выбранной нами функциональной формы?
Таких критериев несколько, но ни один из них не является в полной мере работоспособным. Мы предлагаем простую (и, вероятно, дискуссионную) процедуру - использовать в качестве "эталона" непараметрическую модель, построенную на основе ядерных функций, сплайнов или локальной регрессии LOESS. Эта процедура проста и иллюстративна. На первом этапе строится непараметрическая модель и находятся ее 95%-ные доверительные интервалы. Далее, для каждой модели-претендента проводится эмпирическая линия регрессии и, если она целиком помещается в пределах доверительной полосы модели сглаживания, то спецификация параметрической модели является верной. Попутно мы показываем некоторые иные возможности непараметрических моделей с использованием пакета np.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/10_NonLinear.pdf 

четверг, 28 марта 2019 г.

Многомерный анализ

Многомерная ординация и каноническая корреляция


Приведен обзор многомерных методов, используемых для анализа структуры экологических сообществ. Основные алгоритмы и процедуры систематизированы в виде таблицы, снабженной необходимыми литературными ссылками.
 
На конкретном примере подробно показано использование методов "новой волны", в том числе:
  • Регрессия и дискриминантный анализ с использованием частных наименьших квадратов PLS-R и PLS-DA (Partial Least Squares);
  • Обобщенный канонический корреляционный анализ с регуляризацией (RGCCA - Regularized generalized canonical correlation analysis);
  • Совместный инерционный анализ (CIA, Co-Inertia Analysis) и обобщенный прокрустов анализ;
  • Интегрированный анализ данных с использованием латентных структур DIABLO, который является комбинацией методов PLS-DA и RGCCA и позволяет эффективно проводить анализ коррелированных наборов данных высокой размерности.
Продемонстрированы все этапы анализа: технология построения моделей, оценка их статистической значимости, интерпретация полученных результатов и графическое сопровождение. В качестве примера использовались результаты гидробиологической съемки зоопланктона и бентоса на малых реках с разным уровнем минерализации.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/9_MDM.pdf