|
Линейная корреляцияDate: 2015-10-07; view: 705. ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ Расчеты коэффициентов корреляции, регрессии достаточно трудоемки. Это объясняется тем, что приходится обрабатывать большое количество исходных данных; ведь одно наблюдение дает сразу две величины. Однако нужно иметь в виду, что если объем выборки невелик, то расчеты этих коэффициентов несложны. При малых выборках общую корреляционную таблицу не составляют, а результат наблюдений оставляют в том виде, каким он получается непосредственно в опыте, т. е. в виде так называемой простой корреляционной таблицы. В такой таблице каждому номеру наблюдений соответствует пара наблюдавшихся значений случайных величин. Конечно, вычисленный по малому числу наблюдений коэффициент в целом имеет меньшую надежность. В тех случаях, когда известен общий вид зависимости между средней одной величины и значениями другой, параметры этой зависимости могут быть найдены методом наименьших квадратов. Рассмотрим выборку двумерной случайной величины (Х, Y) . Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным средним M (Y / x) = f (x), M ( X / y ) = φ (y). Условные средние
- выборочное уравнение регрессии Y на Х,
- выборочное уравнение регрессии Х на Y. Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y на Х и Х на Y, а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен. Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х1, у1), (х2, у2),…, (хп, уп). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида Y = ρyxx + b , (3) Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами (х1, у1), (х2, у2), …, (хп, уп) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции
Приравняем нулю соответствующие частные производные:
В результате получим систему двух линейных уравнений относительно ρ и b:
Ее решение позволяет найти искомые параметры в виде:
При этом предполагалось, что все значения Х и Y наблюдались по одному разу. Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:
Здесь nij – число появлений в выборке пары чисел (xi, yj). Поскольку
Можно решить эту систему и найти параметры ρух и b, определяющие выборочное уравнение прямой линии регрессии:
Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):
Подставим это выражение в уравнение регрессии:
где
и умножим равенство (8) на
Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе |r| к единице. Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться таблицей Чеддока (табл.1): Таблица 1
Итак, если для выборки двумерной случайной величины (X, Y): {(xi, yi), i = 1, 2,..., n} вычислены выборочные средние
и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:
и выборочным уравнением прямой линии регрессии Х на Y :
Пример. Для выборки двумерной случайной величины
вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.
Пример. По заданной корреляционной таблице найти выборочные средние
Вычислим выборочные средние и среднеквадратические отклонения для X,Y
Выборочный коэффициент корреляции между Х и У отыскивается по формуле
Согласно таблице откуда
Выборочное линейное уравнение регрессии У на Х имеет вид
или, с учётом вычисленных значений,
Условное среднее при x = xi вычисляется по формуле
где
Значения условных средних
Отклонения значений ,
будут d1 = 0-0.45=-0.45; d2 = 2.6- 1.96 = 0.65; d3 = -0.51, d4 = 0.55; d5 = -0.05; d6 = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄ Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;
По данным исследования требуется: 1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи; 2) оценить тесноту линейной корреляционной связи; 3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α=0,05; 4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат; 5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов. 1.Для построения эмпирических ломаных регрессии вычислим условные средние 2.
то условное среднее При х=15 признак Y имеет распределение
тогда
Аналогично вычисляются все
Таблица 2
Таблица 3
В прямоугольной системе координат построим точки Аi(хi,
Построенные эмпирические ломаные регрессии Y на X и X на Y свидетельствуют о том, что между количеством работающих (X) и объёмом складских реализаций (Y) существует линейная зависимость. Из графика видно, что с увеличением X величина 2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам
Это значение rB говорит о том, что линейная связь между количеством работников и объемом складских реализаций высокая. Этот вывод подтверждает первоначальное предположение, сделанное исходя из графика. 3. Запишем теоретические уравнения линейной регрессии:
Подставляя в эти уравнения найденные величины, получаем искомые уравнения регрессии: 1) уравнение регрессии Y на X:
2) уравнение регрессии X на Y:
Контроль: точка пересечения прямых линий регрессии имеет координаты 4. Найдём среднее значение Y при х=40 чел., используя уравнение регрессии Y на X. Подставим в это уравнение х=40, получим
Ожидаемое в генеральной совокупности среднее значение объёма складских реализаций при заданном количестве работников (х=40) составляет 137,51 д.е. Замечание 1. Если в корреляционной таблице даны интервальные распределения, то за значения вариант надо брать середины частичных интервалов. Замечание 2. Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам:
где h1 – шаг, т.е. разность между двумя соседними вариантами xi; С1 – «ложный нуль» вариант xi (в качестве «ложного нуля» удобно принять варианту, которая расположена примерно в середине ряда); h2 – шаг вариант Y; С2 – «ложный нуль» вариант Y. В этом случае выборочный коэффициент корреляции
где
Зная эти величины, находят
Найденные величины подставляем в уравнения (10). Так в данном примере С1 =25, h1=10, С2=136, h2=2; Корреляционная таблица в условных вариантах имеет вид
По этой таблице и приведённым выше формулам находим характеристики:
В результате получаем те же уравнения линейной регрессии:
|