среда, 22 августа 2018 г.

Экспорт в Word

Экспорт объектов R в документы Word


Цель настоящего сообщения - показать, как можно легко и быстро с использованием пакета ReporteRs экспортировать в документ Microsoft Word (формат файла .docx) результаты работы статистической среды R, включая отдельные абзацы текста, таблицы данных, графики и даже сами R-скрипты. Приводится пример вывода протокола  проверки гипотезы об однородности вариации данных в группах, включая таблицы выборочных статистик, результаты общепринятых статистических тестов, график доверительных интервалов стандартного отклонения, итоги множественных парных сравнений групповых дисперсий и др. 
Адрес для доступа к PDF-файлу сообщения -

понедельник, 20 августа 2018 г.

Функция распределения ЭФР

Эмпирические функции распределения и их сравнение
 

Рассматриваются различные формы отображения на графике эмпирической (кумулятивной) функции распределения (ЭФР) и эмпирической фукции плотности распределения (ЭФПР) наблюдаемой случайной величины. Показаны пути адекватного сглаживания ЭФПР и построения ЭФР по сглаженной ЭФПР. Представлена методика подбора теоретической функции распределения с использованием пакета fitdistrplus. Приводятся скрипты сравнения распределений нескольких групп наблюдений с использованием теста Колмогорова-Смирнова. Представлены алгоритмы построения доверительных интервалов ЭФР с применением теорем Дворецкого-Кифера-Вольфовица, ЦПТ и бутстрепа и сделан их сравнительный анализ.
Адрес для доступа к PDF-файлу сообщения -

воскресенье, 19 августа 2018 г.

Доверительные интервалы

Интервальное оценивание параметров распределения


Рассматриваются два подхода к оценке доверительных интервалов среднего и дисперсии случайной величины: параметрический и с использованием бутстрепа. Обсуждается проблемы интерпретации этих оценок в случае малых выборок. Показано, что различие в выборочных параметрах, найденных бутстрепом и с использованием t-статистики, уменьшается при увеличении численности вариационного ряда.
Рассмотрены методы построения доверительных полос (band) и доверительных эллипсов. Обсуждаются способы визуального сравнения выборочных параметров распределения нескольких групп наблюдений с использованием доверительных областей.
 Адрес для доступа к PDF-файлу сообщения -


Мультимодельный подход

Селекция и комплексация моделей с использованием пакета MuMIn


Описываются механизмы ранжирования моделей-претендентов с последующим формированием статистического заключения на основе подмножества лучших из них. Сообщение состоит из двух частей.
Часть 1: "Отбор лучших моделей на основе информационных критериев" включает обоснование мультимодельного подхода и описание используемых критериев.
Рассматривается функция dredge(), которая осуществляет построение всех возможных моделей из различных комбинаций независимых переменных и последующее их ранжирование по информационным критериям. Приводится три примера с построением линейных моделей регрессии от количественных и порядковых независимых переменных и нелинейной модели.
Часть 2: "Объединение моделей для получения коллективного решения" представляет различные методы агрегирования модельных параметров. На примерах обычной линейной и логистической регрессии анализируются различные варианты комплексации прогнозов и оценивается зависимость точности решения от численности "коллектива". Выполнено сравнение эффективности наилучшей агрегированной модели с другими моделями на основе опорных векторов "случайного леса" и др.


Адрес для доступа к PDF-файлу сообщения -

суббота, 18 августа 2018 г.

Карты Генштаба


Визуализация пространственно-распределенных данных с помощью пакетов ggmap и ggplot2

 

 В сообщении описана технология формирования "на лету" географических карт со слоями необходимого качества и масштаба для отображения пространственно-распределенной информации.
Первый шаг для этого - создание основного картографического слоя на основе загрузки актуальной информации с серверов GoogleMap, OpenStreetMap, Stamen Maps или CloudMade при помощи функций пакета ggmap.
Второй шаг - широкое использование грамматики создания графических слоев для отображения необходимой информации на основе функций пакета ggplot2 .

На примере базы данных по гидробиологической съемке ИЭВБ РАН в районе Среднего и Нижнего Поволжья сформирована серия карт с отображением точек отбора проб и встречаемости отдельных видов макрозообентоса. Показаны различные варианты построения 2D-диаграмм распределения плотности вероятностей анализируемых показателей.
Показан механизм связи таблиц базы данных MS Access с объектами среды R через ODBC.
 
Адрес для доступа к PDF-файлу сообщения -

пятница, 17 августа 2018 г.

Предуведомление к блогу

Настоящий блог является приложением к  сайту по количественной экологии ЭкоСтат или "Jahrbuch fur EcoAnalytic und EcoPatologic", соредактором которого я (см. вкладку "Контакты") являюсь с 2003 г. На основной сайт можно перейти по ссылке  www.ievbras.ru/ecostat/Kiril
Там накопилось много всякой чисто экологической информации, которая часто мало сочетается с методическими материалами по R, разработка и публикация которых стала моим увлечением последних лет. Поэтому на этом блоге (вкладка "Книги по R") мы сконцентрировали книги по работе в статистической среде R и обработке данных с ее использованием , написанные как нами, так и ведущими отечественными и зарубежными авторами, а также некоторые общепризнанные монографии по статистическому анализу .
На главной вкладке блога представлены небольшие статьи обзорного характера, посвященные различным аспектам статистического анализа данных с использованием скриптов R. Это - постоянно расширяющийся контент и его авторами может стать любой желающий.
Мы с признательностью ознакомимся с вашими пожеланиями и замечаниями.
Все материалы распространяются в формате PDF-файлов. Для сохранения файлов на вашем компьютере воспользуйтесь опцией "Сохранить объект как..." из контекстного меню при нажатии правой кнопки мыши.