суббота, 1 декабря 2018 г.

Толерантные интервалы

Построение толерантных интервалов

  В сообщении рассматриваются методы построения толерантных интервалов на основе данных, полученных из различных статистических распределений и моделей, в том числе :
  •  одномерное и двумерное нормальное распределение;
  •  различные параметрические непрерывные распределения (равномерное,  экспоненциальное, Гамма, Вейбулла, логистическое);
  • биномиальное и пуассоновское дискретные распределения;
  • модель двухфакторного дисперсионного анализа;
  • различные формы линейной, нелинейной и непараметрической  регрессии;
  • модели Ципфа-Мандельброта.
 Основой сообщения является перевод статьи Young D. S. tolerance: An R Package for Estimating Tolerance Intervals // Journal of Statistical Software. 2010. V. 36(5) . P. 1-39.
Приведены основные принципы оценки толерантных интервалов или расчетные формулы, а также примеры расчета с использованием функций пакета  tolerance  и их графическое сопровождение.


 Адрес для доступа к PDF-файлу сообщения -
  www.ievbras.ru/ecostat/Kiril/R/Blog/8_Tolerance.pdf

суббота, 10 ноября 2018 г.

Имитация мощности

Имитационные методы оценки мощности статистических тестов

При проверке статистических гипотез часто бывает недостаточно оценить риск ошибки первого рода α. Важно также определить вероятность β ошибки второго рода или мощность (1 - β) используемого теста при фиксированном уровне значимости αk и конкретных условиях и допущениях при проведении опыта. Научно обоснованное планирование исследований предполагает также построение функций мощности в зависимости от различных планов проведения эксперимента, в первую очередь, необходимого объема выборки и возможной величины тестируемого эффекта. Для реализации этого часто используют имитационные процедуры.
Анализ мощности с использованием имитаций предполагает выполнение следующих шагов:
1. Задаются предполагаемые параметры распределений случайных величин, наблюдение за которыми осуществляется в ходе эксперимента (средние, стандартные отклонения и др.).
2. Если оценивается мощность обнаружения эффекта с использованием статистической модели, то задаются также значения параметров этой модели (коэффициенты и отклонения для остатков).
3. Выбирается алгоритм проверки нулевой гипотезы относительно обнаруживаемого эффекта - это может быть любой статистический тест, математическое правило или коэффициент модели, значимость которых можно оценить, рассчитав р-значение.
4. Алгоритм из п. 3 реализуется для произвольной случайной выборки из распределений с параметрами, заданными в  п. 1.
5. П. 4 выполняется многократно (например, 10000 раз) и формируется вектор р-значений.
6. Оценивается мощность обнаружения эффекта как доля р-значений от их общего числа, которые не превысили критическую величину αk.

     В сообщении рассматриваются варианты постронения имитационных процедур для анализа мощности различных тестов и моделей, куда вошли:
  • параметрические и непараметрические тесты для оценки сдвига распределений;
  • модель однофакторного дисперсионного анализа;
  • различные формы линейной регрессии с включением непрерывных независимых переменных и фиксированных факторов;
  • модели со смешанными параметрами (с использованием пакета simr).

 Адрес для доступа к PDF-файлу сообщения -
  www.ievbras.ru/ecostat/Kiril/R/Blog/7_SimPower.pdf

понедельник, 29 октября 2018 г.

Путеводитель по R


         

Предлагаем вашему вниманию перевод на русский язык методического руководства
M. Herve  "Aide-mémoire de statistique appliquée à la biologie. Construire son étude et analyser les résultats à l’aide du logiciel R", 2016. 


Адрес для доступа к PDF-файлу книги ( 5.6 Мб) -  

среда, 22 августа 2018 г.

Экспорт в Word

Экспорт объектов R в документы Word


Цель настоящего сообщения - показать, как можно легко и быстро с использованием пакета ReporteRs экспортировать в документ Microsoft Word (формат файла .docx) результаты работы статистической среды R, включая отдельные абзацы текста, таблицы данных, графики и даже сами R-скрипты. Приводится пример вывода протокола  проверки гипотезы об однородности вариации данных в группах, включая таблицы выборочных статистик, результаты общепринятых статистических тестов, график доверительных интервалов стандартного отклонения, итоги множественных парных сравнений групповых дисперсий и др. 
Адрес для доступа к PDF-файлу сообщения -

понедельник, 20 августа 2018 г.

Функция распределения ЭФР

Эмпирические функции распределения и их сравнение
 

Рассматриваются различные формы отображения на графике эмпирической (кумулятивной) функции распределения (ЭФР) и эмпирической фукции плотности распределения (ЭФПР) наблюдаемой случайной величины. Показаны пути адекватного сглаживания ЭФПР и построения ЭФР по сглаженной ЭФПР. Представлена методика подбора теоретической функции распределения с использованием пакета fitdistrplus. Приводятся скрипты сравнения распределений нескольких групп наблюдений с использованием теста Колмогорова-Смирнова. Представлены алгоритмы построения доверительных интервалов ЭФР с применением теорем Дворецкого-Кифера-Вольфовица, ЦПТ и бутстрепа и сделан их сравнительный анализ.
Адрес для доступа к PDF-файлу сообщения -

воскресенье, 19 августа 2018 г.

Доверительные интервалы

Интервальное оценивание параметров распределения


Рассматриваются два подхода к оценке доверительных интервалов среднего и дисперсии случайной величины: параметрический и с использованием бутстрепа. Обсуждается проблемы интерпретации этих оценок в случае малых выборок. Показано, что различие в выборочных параметрах, найденных бутстрепом и с использованием t-статистики, уменьшается при увеличении численности вариационного ряда.
Рассмотрены методы построения доверительных полос (band) и доверительных эллипсов. Обсуждаются способы визуального сравнения выборочных параметров распределения нескольких групп наблюдений с использованием доверительных областей.
 Адрес для доступа к PDF-файлу сообщения -


Мультимодельный подход

Селекция и комплексация моделей с использованием пакета MuMIn


Описываются механизмы ранжирования моделей-претендентов с последующим формированием статистического заключения на основе подмножества лучших из них. Сообщение состоит из двух частей.
Часть 1: "Отбор лучших моделей на основе информационных критериев" включает обоснование мультимодельного подхода и описание используемых критериев.
Рассматривается функция dredge(), которая осуществляет построение всех возможных моделей из различных комбинаций независимых переменных и последующее их ранжирование по информационным критериям. Приводится три примера с построением линейных моделей регрессии от количественных и порядковых независимых переменных и нелинейной модели.
Часть 2: "Объединение моделей для получения коллективного решения" представляет различные методы агрегирования модельных параметров. На примерах обычной линейной и логистической регрессии анализируются различные варианты комплексации прогнозов и оценивается зависимость точности решения от численности "коллектива". Выполнено сравнение эффективности наилучшей агрегированной модели с другими моделями на основе опорных векторов "случайного леса" и др.


Адрес для доступа к PDF-файлу сообщения -