вторник, 9 июля 2019 г.

Адекватность

Оценка адекватности регрессионных моделей

 В настоящем сообщении обсуждаются способы оценки адекватности, которая определяет степень применимости моделей для каких-то практических действий (прогнозирования, управления и проч.). Рассматривается два набора тестов, по результатам которых модель признается неадекватной, если отклоняются следующие утверждения нулевой гипотезы:
  1. Постоянство остаточной дисперсии модели (гомоскедастичность);  случайность и независимость  выборочных остатков; равенство нулю их среднего  и согласие с  распределением по постулируемому закону;
   2. Незначимое превышение оценки дисперсии остатков, обусловленных неадекватностью модели, над дисперсией "естественного" разброса случайных наблюдений отклика Y .

     Сообщение состоит из 7 разделов:
   В первом разделе мы позволили себе немого расслабиться и "пофилософствовать" относительно гносеологических и праксеологических отправных точках термина "адекватность".
   Раздел 2 посвящен простым тестам, используемым при анализе гомоскедастичности, случайности и независимости остатков. Как современная альтернатива им предложен метод диагностики модели с использованием кумулятивных остатков, описанный в разделе 3.
   Раздел 4 посвящен анализу данных эксперимента, проводимого с использованием повторностей (т.е. параллельных опытов). Показаны механизм выделения дисперсии "чистой ошибки" отклика и программная реализация теста, оценивающего значимость потерь при подгонке модели (lack of fit).
   Если повторностей в эксперименте нет, то правомочен вопрос: удастся ли составить из выборочных наблюдений однородные группы, которые условно можно назвать "почти параллельными опытами"? В разделах 5 и 6 показана неопределенность и многовариантность результатов кластерного анализа, используемого для этой цели, а также сделан литературный обзор основных стратегических направлений, направленных на получение состоятельной оценки "чистой ошибки" отклика при отсутствии повторностей.
   В разделе 7 рассматриваются функции диагностики адекватности нелинейных моделей, разработанные в пакете drc.
Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/11_Adequat.pdf  



суббота, 11 мая 2019 г.

Спецификация модели

Выбор функциональной формы регрессионной модели

В настоящем сообщении обсуждаются три распространенные проблемы, возникающие при выборе спецификации регрессионной модели.
1. Можно ли ограничиться обыкновенной линейной регрессией для описания зависимости Y = f(X) или необходимо выполнить поиск наиболее адекватной нелинейной модели?
Действительно, далеко не всегда, вглядываясь в размытое облако экспериментальных точек на графике Y-X, можно с уверенностью принять однозначное решение. Выборочная оценка коэффициента корреляции или статистическая значимость коэффициента угла наклона не могут помочь нам в этом вопросе. Мы приводим скрипты для расчета корреляционного отношения и проверки статистической гипотезы о линейности функциональной связи на его основе. Другим вариантом теста на линейность спецификации модели является проверка по Фишеру отношения остаточной дисперсии к дисперсии воспроизводимости отклика (оценка потерей при подгонке lack of fit ).

2. Насколько можно доверять оценкам статистической значимости параметров модели?
Обычно превалирует грубое эмпирическое правило - отбросить переменные, статистическая значимость которых превысит 5% порог. К сожалению, существует много нюансов, усложняющих выполнение процедуры Вальда: гетероскедастичность ошибок, сингулярность ковариационных матриц, оценка реальной доли отброшенных переменных в остатках, проблема величины штрафа за усложнение модели и др. Оценки значимости также могут существенно колебаться от объема выборки (числом измерений можно "купить" любую статистическую значимость), последовательности включения предикторов в модель и т.д. Возникает опасность потери членов модели, важных для последующего использования.
Мы показываем некоторые результаты имитации оценок значимости коэффициентов на примере полиномиальной модели (по отдельности или для их комбинаций), а также возможность использования обобщенного метода наименьших квадратов и некоторых схем исправления ковариационной матрицы для получения робастного решения. Приведен пример расчета бутстреповских оценок значимости коэффициентов.

3. Что может быть критерием для вывода о правильности выбранной нами функциональной формы?
Таких критериев несколько, но ни один из них не является в полной мере работоспособным. Мы предлагаем простую (и, вероятно, дискуссионную) процедуру - использовать в качестве "эталона" непараметрическую модель, построенную на основе ядерных функций, сплайнов или локальной регрессии LOESS. Эта процедура проста и иллюстративна. На первом этапе строится непараметрическая модель и находятся ее 95%-ные доверительные интервалы. Далее, для каждой модели-претендента проводится эмпирическая линия регрессии и, если она целиком помещается в пределах доверительной полосы модели сглаживания, то спецификация параметрической модели является верной. Попутно мы показываем некоторые иные возможности непараметрических моделей с использованием пакета np.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/10_NonLinear.pdf 

четверг, 28 марта 2019 г.

Многомерный анализ

Многомерная ординация и каноническая корреляция


Приведен обзор многомерных методов, используемых для анализа структуры экологических сообществ. Основные алгоритмы и процедуры систематизированы в виде таблицы, снабженной необходимыми литературными ссылками.
 
На конкретном примере подробно показано использование методов "новой волны", в том числе:
  • Регрессия и дискриминантный анализ с использованием частных наименьших квадратов PLS-R и PLS-DA (Partial Least Squares);
  • Обобщенный канонический корреляционный анализ с регуляризацией (RGCCA - Regularized generalized canonical correlation analysis);
  • Совместный инерционный анализ (CIA, Co-Inertia Analysis) и обобщенный прокрустов анализ;
  • Интегрированный анализ данных с использованием латентных структур DIABLO, который является комбинацией методов PLS-DA и RGCCA и позволяет эффективно проводить анализ коррелированных наборов данных высокой размерности.
Продемонстрированы все этапы анализа: технология построения моделей, оценка их статистической значимости, интерпретация полученных результатов и графическое сопровождение. В качестве примера использовались результаты гидробиологической съемки зоопланктона и бентоса на малых реках с разным уровнем минерализации.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/9_MDM.pdf  

суббота, 1 декабря 2018 г.

Толерантные интервалы

Построение толерантных интервалов

  В сообщении рассматриваются методы построения толерантных интервалов на основе данных, полученных из различных статистических распределений и моделей, в том числе :
  •  одномерное и двумерное нормальное распределение;
  •  различные параметрические непрерывные распределения (равномерное,  экспоненциальное, Гамма, Вейбулла, логистическое);
  • биномиальное и пуассоновское дискретные распределения;
  • модель двухфакторного дисперсионного анализа;
  • различные формы линейной, нелинейной и непараметрической  регрессии;
  • модели Ципфа-Мандельброта.
 Основой сообщения является перевод статьи Young D. S. tolerance: An R Package for Estimating Tolerance Intervals // Journal of Statistical Software. 2010. V. 36(5) . P. 1-39.
Приведены основные принципы оценки толерантных интервалов или расчетные формулы, а также примеры расчета с использованием функций пакета  tolerance  и их графическое сопровождение.


 Адрес для доступа к PDF-файлу сообщения -
  www.ievbras.ru/ecostat/Kiril/R/Blog/8_Tolerance.pdf

суббота, 10 ноября 2018 г.

Имитация мощности

Имитационные методы оценки мощности статистических тестов

При проверке статистических гипотез часто бывает недостаточно оценить риск ошибки первого рода α. Важно также определить вероятность β ошибки второго рода или мощность (1 - β) используемого теста при фиксированном уровне значимости αk и конкретных условиях и допущениях при проведении опыта. Научно обоснованное планирование исследований предполагает также построение функций мощности в зависимости от различных планов проведения эксперимента, в первую очередь, необходимого объема выборки и возможной величины тестируемого эффекта. Для реализации этого часто используют имитационные процедуры.
Анализ мощности с использованием имитаций предполагает выполнение следующих шагов:
1. Задаются предполагаемые параметры распределений случайных величин, наблюдение за которыми осуществляется в ходе эксперимента (средние, стандартные отклонения и др.).
2. Если оценивается мощность обнаружения эффекта с использованием статистической модели, то задаются также значения параметров этой модели (коэффициенты и отклонения для остатков).
3. Выбирается алгоритм проверки нулевой гипотезы относительно обнаруживаемого эффекта - это может быть любой статистический тест, математическое правило или коэффициент модели, значимость которых можно оценить, рассчитав р-значение.
4. Алгоритм из п. 3 реализуется для произвольной случайной выборки из распределений с параметрами, заданными в  п. 1.
5. П. 4 выполняется многократно (например, 10000 раз) и формируется вектор р-значений.
6. Оценивается мощность обнаружения эффекта как доля р-значений от их общего числа, которые не превысили критическую величину αk.

     В сообщении рассматриваются варианты постронения имитационных процедур для анализа мощности различных тестов и моделей, куда вошли:
  • параметрические и непараметрические тесты для оценки сдвига распределений;
  • модель однофакторного дисперсионного анализа;
  • различные формы линейной регрессии с включением непрерывных независимых переменных и фиксированных факторов;
  • модели со смешанными параметрами (с использованием пакета simr).

 Адрес для доступа к PDF-файлу сообщения -
  www.ievbras.ru/ecostat/Kiril/R/Blog/7_SimPower.pdf

понедельник, 29 октября 2018 г.

Путеводитель по R


         

Предлагаем вашему вниманию перевод на русский язык методического руководства
M. Herve  "Aide-mémoire de statistique appliquée à la biologie. Construire son étude et analyser les résultats à l’aide du logiciel R", 2016. 


Адрес для доступа к PDF-файлу книги ( 5.6 Мб) -  

среда, 22 августа 2018 г.

Экспорт в Word

Экспорт объектов R в документы Word


Цель настоящего сообщения - показать, как можно легко и быстро с использованием пакета ReporteRs экспортировать в документ Microsoft Word (формат файла .docx) результаты работы статистической среды R, включая отдельные абзацы текста, таблицы данных, графики и даже сами R-скрипты. Приводится пример вывода протокола  проверки гипотезы об однородности вариации данных в группах, включая таблицы выборочных статистик, результаты общепринятых статистических тестов, график доверительных интервалов стандартного отклонения, итоги множественных парных сравнений групповых дисперсий и др. 
Адрес для доступа к PDF-файлу сообщения -