суббота, 1 декабря 2018 г.

Толерантные интервалы

Построение толерантных интервалов

  В сообщении рассматриваются методы построения толерантных интервалов на основе данных, полученных из различных статистических распределений и моделей, в том числе :
  •  одномерное и двумерное нормальное распределение;
  •  различные параметрические непрерывные распределения (равномерное,  экспоненциальное, Гамма, Вейбулла, логистическое);
  • биномиальное и пуассоновское дискретные распределения;
  • модель двухфакторного дисперсионного анализа;
  • различные формы линейной, нелинейной и непараметрической  регрессии;
  • модели Ципфа-Мандельброта.
 Основой сообщения является перевод статьи Young D. S. tolerance: An R Package for Estimating Tolerance Intervals // Journal of Statistical Software. 2010. V. 36(5) . P. 1-39.
Приведены основные принципы оценки толерантных интервалов или расчетные формулы, а также примеры расчета с использованием функций пакета  tolerance  и их графическое сопровождение.


 Адрес для доступа к PDF-файлу сообщения -
  www.ievbras.ru/ecostat/Kiril/R/Blog/8_Tolerance.pdf

суббота, 10 ноября 2018 г.

Имитация мощности

Имитационные методы оценки мощности статистических тестов

При проверке статистических гипотез часто бывает недостаточно оценить риск ошибки первого рода α. Важно также определить вероятность β ошибки второго рода или мощность (1 - β) используемого теста при фиксированном уровне значимости αk и конкретных условиях и допущениях при проведении опыта. Научно обоснованное планирование исследований предполагает также построение функций мощности в зависимости от различных планов проведения эксперимента, в первую очередь, необходимого объема выборки и возможной величины тестируемого эффекта. Для реализации этого часто используют имитационные процедуры.
Анализ мощности с использованием имитаций предполагает выполнение следующих шагов:
1. Задаются предполагаемые параметры распределений случайных величин, наблюдение за которыми осуществляется в ходе эксперимента (средние, стандартные отклонения и др.).
2. Если оценивается мощность обнаружения эффекта с использованием статистической модели, то задаются также значения параметров этой модели (коэффициенты и отклонения для остатков).
3. Выбирается алгоритм проверки нулевой гипотезы относительно обнаруживаемого эффекта - это может быть любой статистический тест, математическое правило или коэффициент модели, значимость которых можно оценить, рассчитав р-значение.
4. Алгоритм из п. 3 реализуется для произвольной случайной выборки из распределений с параметрами, заданными в  п. 1.
5. П. 4 выполняется многократно (например, 10000 раз) и формируется вектор р-значений.
6. Оценивается мощность обнаружения эффекта как доля р-значений от их общего числа, которые не превысили критическую величину αk.

     В сообщении рассматриваются варианты постронения имитационных процедур для анализа мощности различных тестов и моделей, куда вошли:
  • параметрические и непараметрические тесты для оценки сдвига распределений;
  • модель однофакторного дисперсионного анализа;
  • различные формы линейной регрессии с включением непрерывных независимых переменных и фиксированных факторов;
  • модели со смешанными параметрами (с использованием пакета simr).

 Адрес для доступа к PDF-файлу сообщения -
  www.ievbras.ru/ecostat/Kiril/R/Blog/7_SimPower.pdf

понедельник, 29 октября 2018 г.

Путеводитель по R


         

Предлагаем вашему вниманию перевод на русский язык методического руководства
M. Herve  "Aide-mémoire de statistique appliquée à la biologie. Construire son étude et analyser les résultats à l’aide du logiciel R", 2016. 


Адрес для доступа к PDF-файлу книги ( 5.6 Мб) -  

среда, 22 августа 2018 г.

Экспорт в Word

Экспорт объектов R в документы Word


Цель настоящего сообщения - показать, как можно легко и быстро с использованием пакета ReporteRs экспортировать в документ Microsoft Word (формат файла .docx) результаты работы статистической среды R, включая отдельные абзацы текста, таблицы данных, графики и даже сами R-скрипты. Приводится пример вывода протокола  проверки гипотезы об однородности вариации данных в группах, включая таблицы выборочных статистик, результаты общепринятых статистических тестов, график доверительных интервалов стандартного отклонения, итоги множественных парных сравнений групповых дисперсий и др. 
Адрес для доступа к PDF-файлу сообщения -

понедельник, 20 августа 2018 г.

Функция распределения ЭФР

Эмпирические функции распределения и их сравнение
 

Рассматриваются различные формы отображения на графике эмпирической (кумулятивной) функции распределения (ЭФР) и эмпирической фукции плотности распределения (ЭФПР) наблюдаемой случайной величины. Показаны пути адекватного сглаживания ЭФПР и построения ЭФР по сглаженной ЭФПР. Представлена методика подбора теоретической функции распределения с использованием пакета fitdistrplus. Приводятся скрипты сравнения распределений нескольких групп наблюдений с использованием теста Колмогорова-Смирнова. Представлены алгоритмы построения доверительных интервалов ЭФР с применением теорем Дворецкого-Кифера-Вольфовица, ЦПТ и бутстрепа и сделан их сравнительный анализ.
Адрес для доступа к PDF-файлу сообщения -

воскресенье, 19 августа 2018 г.

Доверительные интервалы

Интервальное оценивание параметров распределения


Рассматриваются два подхода к оценке доверительных интервалов среднего и дисперсии случайной величины: параметрический и с использованием бутстрепа. Обсуждается проблемы интерпретации этих оценок в случае малых выборок. Показано, что различие в выборочных параметрах, найденных бутстрепом и с использованием t-статистики, уменьшается при увеличении численности вариационного ряда.
Рассмотрены методы построения доверительных полос (band) и доверительных эллипсов. Обсуждаются способы визуального сравнения выборочных параметров распределения нескольких групп наблюдений с использованием доверительных областей.
 Адрес для доступа к PDF-файлу сообщения -


Мультимодельный подход

Селекция и комплексация моделей с использованием пакета MuMIn


Описываются механизмы ранжирования моделей-претендентов с последующим формированием статистического заключения на основе подмножества лучших из них. Сообщение состоит из двух частей.
Часть 1: "Отбор лучших моделей на основе информационных критериев" включает обоснование мультимодельного подхода и описание используемых критериев.
Рассматривается функция dredge(), которая осуществляет построение всех возможных моделей из различных комбинаций независимых переменных и последующее их ранжирование по информационным критериям. Приводится три примера с построением линейных моделей регрессии от количественных и порядковых независимых переменных и нелинейной модели.
Часть 2: "Объединение моделей для получения коллективного решения" представляет различные методы агрегирования модельных параметров. На примерах обычной линейной и логистической регрессии анализируются различные варианты комплексации прогнозов и оценивается зависимость точности решения от численности "коллектива". Выполнено сравнение эффективности наилучшей агрегированной модели с другими моделями на основе опорных векторов "случайного леса" и др.


Адрес для доступа к PDF-файлу сообщения -

суббота, 18 августа 2018 г.

Карты Генштаба


Визуализация пространственно-распределенных данных с помощью пакетов ggmap и ggplot2

 

 В сообщении описана технология формирования "на лету" географических карт со слоями необходимого качества и масштаба для отображения пространственно-распределенной информации.
Первый шаг для этого - создание основного картографического слоя на основе загрузки актуальной информации с серверов GoogleMap, OpenStreetMap, Stamen Maps или CloudMade при помощи функций пакета ggmap.
Второй шаг - широкое использование грамматики создания графических слоев для отображения необходимой информации на основе функций пакета ggplot2 .

На примере базы данных по гидробиологической съемке ИЭВБ РАН в районе Среднего и Нижнего Поволжья сформирована серия карт с отображением точек отбора проб и встречаемости отдельных видов макрозообентоса. Показаны различные варианты построения 2D-диаграмм распределения плотности вероятностей анализируемых показателей.
Показан механизм связи таблиц базы данных MS Access с объектами среды R через ODBC.
 
Адрес для доступа к PDF-файлу сообщения -

пятница, 17 августа 2018 г.

Предуведомление к блогу

Настоящий блог является приложением к  сайту по количественной экологии ЭкоСтат или "Jahrbuch fur EcoAnalytic und EcoPatologic", соредактором которого я (см. вкладку "Контакты") являюсь с 2003 г. На основной сайт можно перейти по ссылке  www.ievbras.ru/ecostat/Kiril
Там накопилось много всякой чисто экологической информации, которая часто мало сочетается с методическими материалами по R, разработка и публикация которых стала моим увлечением последних лет. Поэтому на этом блоге (вкладка "Книги по R") мы сконцентрировали книги по работе в статистической среде R и обработке данных с ее использованием , написанные как нами, так и ведущими отечественными и зарубежными авторами, а также некоторые общепризнанные монографии по статистическому анализу .
На главной вкладке блога представлены небольшие статьи обзорного характера, посвященные различным аспектам статистического анализа данных с использованием скриптов R. Это - постоянно расширяющийся контент и его авторами может стать любой желающий.
Мы с признательностью ознакомимся с вашими пожеланиями и замечаниями.
Все материалы распространяются в формате PDF-файлов. Для сохранения файлов на вашем компьютере воспользуйтесь опцией "Сохранить объект как..." из контекстного меню при нажатии правой кнопки мыши.