Термины и концепция регрессивного анализа

Date: 2015-10-07; view: 610.

Невозможно обсуждать регрессионный анализ без предварительного знакомства с основными терминами и концепциями, характерными для регрессионной статистики:

Уравнение регрессии. Это математическая формула, применяемая к независимым переменным, чтобы лучше спрогнозировать зависимую переменную, которую необходимо смоделировать. К сожалению, для тех ученых, кто думает, что х и у это только координаты, независимая переменная в регрессионном анализе всегда обозначается как y, а зависимая — всегда X. Каждая независимая переменная связана с коэффициентами регрессии, описывающими силу и знак взаимосвязи между этими двумя переменными. Уравнение регрессии может выглядеть следующим образом (у - зависимая переменная, Х - независимые переменные, βs- коэффициенты регрессии), каждый из компонентов уравнения регрессии описан ниже:

Рис. 1.2 Элементы Уравнения регрессии по методу наименьших квадратов

Зависимая переменная(y) — это переменная, описывающая процесс, который вы пытаетесь предсказать или понять (бытовые кражи, осадки). В уравнении регрессии эта переменная всегда находится слева от знака равенства. В то время, как используется регрессия для предсказания зависимой величины, всегда начинаете с набора хорошо известных у-значений и используете их для калибровки регрессионной модели. Известные у-значения часто называютнаблюдаемыми величинами.
Независимые переменные(X) это переменные, используемые для моделирования или прогнозирования значений зависимых переменных. В уравнении регрессии они располагаются справа от знака равенства и часто называютсяобъяснительными переменными. Зависимая переменная - это функция независимых переменных.
Коэффициенты регрессии(β) — это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой. Предположим, что моделируется частота пожаров как функцию от солнечной радиации, растительного покрова, осадков и экспозиции склона. Можно ожидать положительную взаимосвязь между частотой пожаров и солнечной радиацией (другими словами, чем больше солнца, тем чаще встречаются пожары). Если отношение положительно, знак связанного коэффициента также положителен. Можно ожидать негативную связь между частотой пожаров и осадками (другими словами, для мест с большим количеством осадков характерно меньше лесных пожаров). Коэффициенты отрицательных отношений имеют знак минуса. Когда взаимосвязь сильная, значения коэффициентов достаточно большие (относительно единиц независимой переменной, с которой они связаны). Слабая взаимосвязь описывается коэффициентами с величинами около 0; β₀ — это пересечениелинии регрессии.Он представляет ожидаемое значение зависимой величины, если все независимые переменные равны 0.

P-значения. Большинство регрессионных методов выполняют статистический тест для расчета вероятности, называемой р-значением, для коэффициентов, связанной с каждой независимой переменной. Нулевая гипотеза данного статистического теста предполагает, что коэффициент незначительно отличается от нуля (другими словами, для всех целей и задач, коэффициентравен нулю, и связанная независимая переменная не может объяснить вашу модель). Маленькие величины р-значений отражают маленькие вероятности и предполагают, что коэффициент действительно важен для вашей модели со значением, существенно отличающимся от 0 (другими словами, маленькие величины р-значений свидетельствуют о том, что коэффициент не равен 0). Коэффициент с р-значением, равным 0,01, например, статистически значимый для 99 % доверительного интервала; связанные переменные являются эффективным предсказателем. Переменные с коэффициентами около 0 не помогают предсказать или смоделировать зависимые величины; они практически всегда удаляются из регрессионного уравнения, если только нет веских причин сохранить их.

R2/R-квадрат. Статистические показатели составной R-квадрат и выровненный R-квадрат вычисляются из регрессионного уравнения, чтобы качественно оценить модель. Значение R-квадрат лежит в пределах от 0 до 100 процентов. Если модель описывает наблюдаемые зависимые переменные идеально, R-квадрат равен 1.0 (несомненно, сделана ошибка; возможно, использовалась модификация величины у для предсказания у). Вероятнее всего, значения R-квадрат в районе 0,49, например, можно интерпретировать подобный результат как "Это модель объясняет 49 % вариации зависимой величины". Чтобы понять, как работает R-квадрат, постройте график, отражающий наблюдаемые и оцениваемые значения у, отсортированные по оцениваемым величинам. Обратим внимание на количество совпадений. Этот график визуально отображает, насколько хорошо вычисленные значения модели объясняют изменения наблюдаемых значений зависимых переменных. Выверенный R-квадрат всегда немного меньше, чем составной R-квадрат, т.к. он отражает всю сложность модели (количество переменных) и связан с набором исходных данных. Следовательно, выверенный R-квадрат является более точной мерой для оценки результатов работы модели.

Рис. 1.3 R-квадрат – это показатель моделирования, показывающий насколько хорошо оцененные у-значения совпадают с наблюдаемыми у-значениями.

Невязки. Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии какслучайные ошибкиε. Известные значения зависимой переменной используются для построения и настройки модели регрессии. Используя известные величины зависимой переменной (Y) и известные значений для всех независимых переменных (Хs), регрессионный инструмент создаст уравнение, которое предскажет те известные у-значения как можно лучше. Однако предсказанные значения редко точно совпадают с наблюдаемыми величинами. Разница между наблюдаемыми и предсказываемыми значениями у называется невязка или отклонение. Величина отклонений регрессионного уравнения - одно из измерений качества работы модели. Большие отклонения говорят о ненадлежащем качестве модели.

Рис. 1.4 Невязки регрессионного анализа

Красные области – местоположения, где реальные значения больше, нежели оцененные в модели. Синие области – местоположения, где реальные значения меньше, нежели оцененные моделью.

Создание регрессионной модели представляет собой итерационный процесс, направленный на поиск эффективных независимых переменных, чтобы объяснить зависимые переменные, чтобы определить, какие величины являются эффективными предсказателями. Затем пошаговое удаление и/или добавление переменных до тех пор, пока не найдётся наилучшим образом подходящую регрессионную модель. Т.к. процесс создания модели часто исследовательский, он никогда не должен становиться простым "подгоном" данных. Он должен учитывать теоретические аспекты, мнение экспертов в этой области и здравый смысл.

<== previous lecture	\|	next lecture ==>
Статистическое изучение взаимосвязи социально-экономических явлений и процессов	\|	Метод наименьших квадратов

lektsiopedia.org - 2013 год. | Page generation: 2.444 s.