суббота, 11 мая 2019 г.

Спецификация модели

Выбор функциональной формы регрессионной модели

В настоящем сообщении обсуждаются три распространенные проблемы, возникающие при выборе спецификации регрессионной модели.
1. Можно ли ограничиться обыкновенной линейной регрессией для описания зависимости Y = f(X) или необходимо выполнить поиск наиболее адекватной нелинейной модели?
Действительно, далеко не всегда, вглядываясь в размытое облако экспериментальных точек на графике Y-X, можно с уверенностью принять однозначное решение. Выборочная оценка коэффициента корреляции или статистическая значимость коэффициента угла наклона не могут помочь нам в этом вопросе. Мы приводим скрипты для расчета корреляционного отношения и проверки статистической гипотезы о линейности функциональной связи на его основе. Другим вариантом теста на линейность спецификации модели является проверка по Фишеру отношения остаточной дисперсии к дисперсии воспроизводимости отклика (оценка потерей при подгонке lack of fit ).

2. Насколько можно доверять оценкам статистической значимости параметров модели?
Обычно превалирует грубое эмпирическое правило - отбросить переменные, статистическая значимость которых превысит 5% порог. К сожалению, существует много нюансов, усложняющих выполнение процедуры Вальда: гетероскедастичность ошибок, сингулярность ковариационных матриц, оценка реальной доли отброшенных переменных в остатках, проблема величины штрафа за усложнение модели и др. Оценки значимости также могут существенно колебаться от объема выборки (числом измерений можно "купить" любую статистическую значимость), последовательности включения предикторов в модель и т.д. Возникает опасность потери членов модели, важных для последующего использования.
Мы показываем некоторые результаты имитации оценок значимости коэффициентов на примере полиномиальной модели (по отдельности или для их комбинаций), а также возможность использования обобщенного метода наименьших квадратов и некоторых схем исправления ковариационной матрицы для получения робастного решения. Приведен пример расчета бутстреповских оценок значимости коэффициентов.

3. Что может быть критерием для вывода о правильности выбранной нами функциональной формы?
Таких критериев несколько, но ни один из них не является в полной мере работоспособным. Мы предлагаем простую (и, вероятно, дискуссионную) процедуру - использовать в качестве "эталона" непараметрическую модель, построенную на основе ядерных функций, сплайнов или локальной регрессии LOESS. Эта процедура проста и иллюстративна. На первом этапе строится непараметрическая модель и находятся ее 95%-ные доверительные интервалы. Далее, для каждой модели-претендента проводится эмпирическая линия регрессии и, если она целиком помещается в пределах доверительной полосы модели сглаживания, то спецификация параметрической модели является верной. Попутно мы показываем некоторые иные возможности непараметрических моделей с использованием пакета np.

Адрес для доступа к PDF-файлу сообщения -
http://www.ievbras.ru/ecostat/Kiril/R/Blog/10_NonLinear.pdf 

Комментариев нет:

Отправить комментарий