rus | ua | other
Home
Random lecture
|
Глава 3. Проблемы с регрессией, последствия и решения
Date: 2015-10-07; view: 514.
| Ошибки спецификации относительно независимых переменных.
| Когда ключевые независимые переменные отсутствуют в регрессионном анализе, коэффициентам и связанным с ними р-значениям нельзя доверять.
| Создаётся карта и проверяются невязки МНК и коэффициенты ГВР или запускается анализ горячих точек по регрессионным невязкам МНК, чтобы увидеть, насколько это позволяет судить о возможных отсутствующих переменных.
| | Нелинейные взаимосвязи (рис. 3.1)
| МНК и ГВР - линейные методы. Если взаимосвязи между любыми независимыми величинами и зависимыми - нелинейны, результирующая модель будет работать плохо.
| Создаётся диаграмма рассеяния, чтобы выявить взаимосвязи между показателями в модели. Уделяется особое внимание взаимосвязям, включающим зависимые переменные. Обычно криволинейность может быть устранена трансформированием величин(рис. 3.2). Альтернативно, используется нелинейный метод регрессии.
| | Выбросы данных(рис.3.3).
| Существенные выбросы могут увести результаты взаимоотношений регрессионной модели далеко от реальности, внося ошибку в коэффициенты регрессии.
| Создаётся диаграмма рассеяния и другие графики (гистограммы), чтобы проверить экстремальные значения данных. Корректируются или удаляются выбросы, если они представляют ошибки. Когда выбросы соответствуют действительности, они не могут быть удалены. Запускается регрессия с и без выбросов, чтобы оценить, как это влияет на результат.
| | Нестационарность. Можно обнаружить, что входящая переменная, может иметь сильную зависимость в регионе А, и в то время быть незначительной или даже поменять знак в регионе B(рис. 3.4).
| Если взаимосвязь между зависимыми и независимыми величинами противоречит в пределах вашей области изучения, рассчитанные стандартные ошибки будут искусственно раздуты.
| Инструмент МНК в ArcGIS автоматически тестирует проблемы, связанные с нестационарностью (региональными вариациями) и вычисляет устойчивые стандартные значения ошибок(рис.3.5). Когда вероятности, связанные с тестом Koenker, малы (например, < 0,05), есть статистически значимая региональная вариация и необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Как правило, результаты моделирования можно улучшить с помощью инструмента. Географически взвешенная регрессия.
| | Мультиколлинеарность. Одна или несколько независимых величин излишни(рис.3.6).
| Мультиколлинеарность ведет к переоценке и нестабильной/ненадежной модели.
| Инструмент МНК в ArcGIS автоматически проверяет избыточность. Каждой независимой переменной присваивается рассчитанная величина фактора, увеличивающего дисперсию. Когда это значение велико (например, > 7,5), избыток является проблемой и излишние показатели должны быть удалены из модели или модифицированы путем создания взаимосвязанных величин или увеличением размера выборки(рис.3.7).
| | Противоречивая вариация в отклонениях. Может произойти, что модель хорошо работает для маленьких величин, но становится ненадежна для больших значений(рис. 3.8).
| Когда модель плохо предсказывает некоторые группы значений, результаты будут носить ошибочный характер.
| Инструмент МНК в ArcGIS автоматически выполняет тест на несистемность вариаций в отклонениях (называемая гетероскедастичность или неоднородность дисперсии) и вычисляет стандартные ошибки, которые устойчивы к этой проблеме. Когда вероятности, связанные с тестом Koenker, малы (например, 0,05), необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет(рис. 3.9).
| | Пространственно автокоррелированные отклонения(рис.3.10)
| Когда наблюдается пространственная кластеризация в отклонениях, полученных в результате работы модели, это означает, что имеется переоценённый тип систематических отклонений, модель работает ненадежно.
| Запускается инструмент Пространственная автокорреляция (Spatial Autocorrelation) по отклонениям, чтобы убедиться, что в них не наблюдается статистически значимой пространственной автокорреляции. Статистически значимая пространственная автокорреляция практически всегда является симптомом ошибки спецификации (отсутствует ключевой показатель в модели)(рис. 3.11).
| | Нормальное распределение систематической ошибки(рис.3.12).
| Когда невязки регрессионной модели распределены ненормально со средним, близким к 0, р-значения, связанные с коэффициентами, ненадежны.
| Инструмент МНК в ArcGIS автоматически выполняет тест на нормальность распределения отклонений. Когда статистический показатель Jarque-Bera является значимым (например, 0,05), скорее всего в модели отсутствует ключевой показатель (ошибка спецификации) или некоторые отношения, которые моделируются, являются нелинейными. Карта отклонений нуждается в проверке и возможно карта с коэффициентами ГВР, чтобы определить, какие ключевые показатели отсутствуют. Нужно найти на диаграмме рассеяния нелинейности взаимосвязей.
|

Рис. 3.1Криволинейность. Эта криволинейная связь между кражами и доходом указывает на то, что больше краж происходит в домах среднего дохода, чем в домах низкого или высокого дохода.

Рис. 3.2Трансформация. Иногда возможно трансформировать искаженные переменные, чтобы придать им нормальное распределение.

Рис. 3.3Выбросы. Существенные выбросы могут увести результаты модели далеко от реальности, внося ошибку в коэффициенты регрессии.
Если выброс – ошибка, она должна быть исправлена или удалена из анализа. Если выброс отражает корректные данные, вы можете провести ваш анализ с и без выброса, чтобы посмотреть, как сильно он влияет на ваши результаты.

Рис. 3.4Нестационарность. Моделирование отношений, не являющимися постоянными в пределах изучаемой области.
Заметьте, что связь между числом вызовов 911 и числом людей отличаются в районах с высокой численностью населения и юго-западных районах с низкой плотностью населения.

Рис. 3.5Усьлйчивые вероятности. Инструмент МНК вычисляет стандартные ошибки и вероятностные коэффициенты, которые устойчивы к нестационарности.
Если критерий Кенкера статистически значимый (*), примите во внимание устойчивые вероятности, чтобы оценить, статистически значимые ваши независимые переменные или нет.

Рис. 3.6Мультиколлинеарность. Существует сильная взаимосвязь между этими переменными.
Использование больше чем одной из этих независимых переменных в единой регрессионной модели привело бы к избыточности и непостоянству модели. Каждая независимая переменная в вашей регрессионной модели должна достигнуть различного аспекта зависимой переменной, которую вы пытаетесь предсказать или смоделировать.

Рис. 3.7Фактор, увеличивающий дисперсию (ФУД). Большие значения ФУД говорят о избыточности среди ваших моделируемых независимых переменных

Рис. 3.8Зависимость дисперсии от случайной величины. Область рассеяния в форме конуса указывает, что модель работает по-разному в зависимости от величины оценочных показателей. В этом случае модель работает лучше (остатки меньше) для участков с меньшим количеством преступлений, чем для участков с большим числом преступлений.

Рис. 3.9Устойчивые вероятности. Инструмент МНК вычисляет стандартные ошибки и вероятностные коэффициенты, которые устойчивы к нестационарности.
Если критерий Кенкера статистически значимый (*), примите во внимание устойчивые вероятности, чтобы оценить, статистически значимые ваши независимые переменные или нет.

Рис. 3.10Карта, отражающая невязки пространственной автокорреляции. Отклонения, полученные в результате моделирования, кластеризуются в пространстве.
Заметьте, как переоценки, полученные в результате моделирования (красные), кластеризуются в пространстве. Статистически значимая пространственная кластеризация отклонений – доказательство того, что в модели отсутствуют ключевые независимые переменные. Вы можете использовать инструмент Пространственная автокорреляция (Spatial Autocorrelation), чтобы определить, присутствует ли в моделировании статистически значимая кластеризация отклонений.

Рис. 3.11Графическое представление результатов пространственной автокорреляции. Графическое представление результатов Пространственной автокорреляции (Глобальный индекс Морана I)

Рис. 3.12Гистограмма невязок. Невязки моделей должны быть распределены равномерно.
|