суббота, 10 ноября 2018 г.

Имитация мощности

Имитационные методы оценки мощности статистических тестов

При проверке статистических гипотез часто бывает недостаточно оценить риск ошибки первого рода α. Важно также определить вероятность β ошибки второго рода или мощность (1 - β) используемого теста при фиксированном уровне значимости αk и конкретных условиях и допущениях при проведении опыта. Научно обоснованное планирование исследований предполагает также построение функций мощности в зависимости от различных планов проведения эксперимента, в первую очередь, необходимого объема выборки и возможной величины тестируемого эффекта. Для реализации этого часто используют имитационные процедуры.
Анализ мощности с использованием имитаций предполагает выполнение следующих шагов:
1. Задаются предполагаемые параметры распределений случайных величин, наблюдение за которыми осуществляется в ходе эксперимента (средние, стандартные отклонения и др.).
2. Если оценивается мощность обнаружения эффекта с использованием статистической модели, то задаются также значения параметров этой модели (коэффициенты и отклонения для остатков).
3. Выбирается алгоритм проверки нулевой гипотезы относительно обнаруживаемого эффекта - это может быть любой статистический тест, математическое правило или коэффициент модели, значимость которых можно оценить, рассчитав р-значение.
4. Алгоритм из п. 3 реализуется для произвольной случайной выборки из распределений с параметрами, заданными в  п. 1.
5. П. 4 выполняется многократно (например, 10000 раз) и формируется вектор р-значений.
6. Оценивается мощность обнаружения эффекта как доля р-значений от их общего числа, которые не превысили критическую величину αk.

     В сообщении рассматриваются варианты постронения имитационных процедур для анализа мощности различных тестов и моделей, куда вошли:
  • параметрические и непараметрические тесты для оценки сдвига распределений;
  • модель однофакторного дисперсионного анализа;
  • различные формы линейной регрессии с включением непрерывных независимых переменных и фиксированных факторов;
  • модели со смешанными параметрами (с использованием пакета simr).

 Адрес для доступа к PDF-файлу сообщения -
  www.ievbras.ru/ecostat/Kiril/R/Blog/7_SimPower.pdf

понедельник, 29 октября 2018 г.

Путеводитель по R


         

Предлагаем вашему вниманию перевод на русский язык методического руководства
M. Herve  "Aide-mémoire de statistique appliquée à la biologie. Construire son étude et analyser les résultats à l’aide du logiciel R", 2016. 


Адрес для доступа к PDF-файлу книги ( 5.6 Мб) -  

среда, 22 августа 2018 г.

Экспорт в Word

Экспорт объектов R в документы Word


Цель настоящего сообщения - показать, как можно легко и быстро с использованием пакета ReporteRs экспортировать в документ Microsoft Word (формат файла .docx) результаты работы статистической среды R, включая отдельные абзацы текста, таблицы данных, графики и даже сами R-скрипты. Приводится пример вывода протокола  проверки гипотезы об однородности вариации данных в группах, включая таблицы выборочных статистик, результаты общепринятых статистических тестов, график доверительных интервалов стандартного отклонения, итоги множественных парных сравнений групповых дисперсий и др. 
Адрес для доступа к PDF-файлу сообщения -

понедельник, 20 августа 2018 г.

Функция распределения ЭФР

Эмпирические функции распределения и их сравнение
 

Рассматриваются различные формы отображения на графике эмпирической (кумулятивной) функции распределения (ЭФР) и эмпирической фукции плотности распределения (ЭФПР) наблюдаемой случайной величины. Показаны пути адекватного сглаживания ЭФПР и построения ЭФР по сглаженной ЭФПР. Представлена методика подбора теоретической функции распределения с использованием пакета fitdistrplus. Приводятся скрипты сравнения распределений нескольких групп наблюдений с использованием теста Колмогорова-Смирнова. Представлены алгоритмы построения доверительных интервалов ЭФР с применением теорем Дворецкого-Кифера-Вольфовица, ЦПТ и бутстрепа и сделан их сравнительный анализ.
Адрес для доступа к PDF-файлу сообщения -

воскресенье, 19 августа 2018 г.

Доверительные интервалы

Интервальное оценивание параметров распределения


Рассматриваются два подхода к оценке доверительных интервалов среднего и дисперсии случайной величины: параметрический и с использованием бутстрепа. Обсуждается проблемы интерпретации этих оценок в случае малых выборок. Показано, что различие в выборочных параметрах, найденных бутстрепом и с использованием t-статистики, уменьшается при увеличении численности вариационного ряда.
Рассмотрены методы построения доверительных полос (band) и доверительных эллипсов. Обсуждаются способы визуального сравнения выборочных параметров распределения нескольких групп наблюдений с использованием доверительных областей.
 Адрес для доступа к PDF-файлу сообщения -


Мультимодельный подход

Селекция и комплексация моделей с использованием пакета MuMIn


Описываются механизмы ранжирования моделей-претендентов с последующим формированием статистического заключения на основе подмножества лучших из них. Сообщение состоит из двух частей.
Часть 1: "Отбор лучших моделей на основе информационных критериев" включает обоснование мультимодельного подхода и описание используемых критериев.
Рассматривается функция dredge(), которая осуществляет построение всех возможных моделей из различных комбинаций независимых переменных и последующее их ранжирование по информационным критериям. Приводится три примера с построением линейных моделей регрессии от количественных и порядковых независимых переменных и нелинейной модели.
Часть 2: "Объединение моделей для получения коллективного решения" представляет различные методы агрегирования модельных параметров. На примерах обычной линейной и логистической регрессии анализируются различные варианты комплексации прогнозов и оценивается зависимость точности решения от численности "коллектива". Выполнено сравнение эффективности наилучшей агрегированной модели с другими моделями на основе опорных векторов "случайного леса" и др.


Адрес для доступа к PDF-файлу сообщения -

суббота, 18 августа 2018 г.

Карты Генштаба


Визуализация пространственно-распределенных данных с помощью пакетов ggmap и ggplot2

 

 В сообщении описана технология формирования "на лету" географических карт со слоями необходимого качества и масштаба для отображения пространственно-распределенной информации.
Первый шаг для этого - создание основного картографического слоя на основе загрузки актуальной информации с серверов GoogleMap, OpenStreetMap, Stamen Maps или CloudMade при помощи функций пакета ggmap.
Второй шаг - широкое использование грамматики создания графических слоев для отображения необходимой информации на основе функций пакета ggplot2 .

На примере базы данных по гидробиологической съемке ИЭВБ РАН в районе Среднего и Нижнего Поволжья сформирована серия карт с отображением точек отбора проб и встречаемости отдельных видов макрозообентоса. Показаны различные варианты построения 2D-диаграмм распределения плотности вероятностей анализируемых показателей.
Показан механизм связи таблиц базы данных MS Access с объектами среды R через ODBC.
 
Адрес для доступа к PDF-файлу сообщения -