Линейная корреляция

Date: 2015-10-07; view: 715.

ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ

Расчеты коэффициентов корреляции, регрессии достаточно трудоемки. Это объясняется тем, что приходится обрабатывать большое количество исходных данных; ведь одно наблюдение дает сразу две величины. Однако нужно иметь в виду, что если объем выборки невелик, то расчеты этих коэффициентов несложны. При малых выборках общую корреляционную таблицу не составляют, а результат наблюдений оставляют в том виде, каким он получается непосредственно в опыте, т. е. в виде так называемой простой корреляционной таблицы. В такой таблице каждому номеру наблюдений соответствует пара наблюдавшихся значений случайных величин. Конечно, вычисленный по малому числу наблюдений коэффициент в целом имеет меньшую надежность. В тех случаях, когда известен общий вид зависимости между средней одной величины и значениями другой, параметры этой зависимости могут быть найдены методом наименьших квадратов.

Рассмотрим выборку двумерной случайной величины (Х, Y) . Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным среднимназовем среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х. Аналогично условное среднее -среднее арифметическое наблюдавшихся значений Х, соответствующих Y = y. Введем уравнения регрессии Y на Х и Х на Y:

M (Y / x) = f (x), M ( X / y ) = φ (y).

Условные средние и являются оценками условных математических ожиданий и, следовательно, тоже функциями от х и у, то есть

=f*(x) - (1)

- выборочное уравнение регрессии Y на Х,

= φ*(у) - (2)

- выборочное уравнение регрессии Х на Y.

Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y на Х и Х на Y, а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен.

Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х₁, у₁), (х₂, у₂),…, (х_п, у_п). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида

Y = ρ_yxx + b , (3)

Подбирая параметры ρ_ух и b так, чтобы точки на плоскости с координатами (х₁, у₁), (х₂, у₂), …, (х_п, у_п) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции

. (4)

Приравняем нулю соответствующие частные производные:

В результате получим систему двух линейных уравнений относительно ρ и b:

. (5)

Ее решение позволяет найти искомые параметры в виде:

. (6)

При этом предполагалось, что все значения Х и Y наблюдались по одному разу.

Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:

Y	X
x₁	x₂	…	x_k	n_y
y₁ y₂ … y_m	n₁₁ n₁₂ … n_1m	n₂₁ n₂₂ … n_2m	… … … …	n_k₁ n_k₂ … n_km	n₁₁+n₂₁+…+n_k₁ n₁₂+n₂₂+…+n_k₂ …………….. n_1m+n_2m+…+n_km
n_x	n₁₁+n₁₂+…+n_1m	n₂₁+n₂₂+…+n_2m	…	n_k₁+n_k₂+…+n_km	n=∑n_x = ∑n_y

Здесь n_ij – число появлений в выборке пары чисел (x_i, y_j). Поскольку , заменим в системе (5)

, где п_ху – число появлений пары чисел (х, у). Тогда система (5) примет вид:

. (7)

Можно решить эту систему и найти параметры ρ_ух и b, определяющие выборочное уравнение прямой линии регрессии:

Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):

Подставим это выражение в уравнение регрессии: . Из (7)

, (8)

где Введем понятие выборочного коэффициента корреляции

и умножим равенство (8) на : , откуда . Используя это соотношение, получим выборочное уравнение прямой линии регрессии Y на Х вида

. (9)

Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе |r| к единице.

Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться таблицей Чеддока (табл.1):

Таблица 1

Диапазон изменения \| r_B \|	0,1-0,3	0,3-0,5	0,5-0,7	0,7-0,9	0,9-0,99
Характер тесноты связи	слабая	умеренная	заметная	высокая	весьма высокая

Итак, если для выборки двумерной случайной величины (X, Y): {(x_i, y_i), i = 1, 2,..., n} вычислены выборочные средние и и выборочные средние квадратические отклонения σ_х и σ_у, то по этим данным можно вычислить выборочный коэффициент корреляции

и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:

и выборочным уравнением прямой линии регрессии Х на Y :

Пример. Для выборки двумерной случайной величины

i
x_i	1,2	1,5	1,8	2,1	2, 3	3,0	3,6	4,2	5,7	6,3
y_i	5,6	6,8	7,8	9,4	10,3	11,4	12,9	14,8	15,2	18,5

вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.

Для определения выборочного коэффициента корреляции вычислим предварительно Тогда

Выборочное уравнение прямой линии регрессии Y на Х имеет вид: или ◄

Пример. По заданной корреляционной таблице найти выборочные средние среднеквадратические отклонения s_Χ, s_Υ, коэффициент корреляции ρ_ΧΥ и уравнение линейной регрессии Y на X. Вычислить условные средние по дан-ным таблицы и найти наибольшее их отклонение от значений, вычисляемых из уравнения регрессии.

Y X						n_X






n_Y

Вычислим выборочные средние и среднеквадратические отклонения для X,Y

Выборочный коэффициент корреляции между Х и У отыскивается по формуле

Согласно таблице

откуда

Выборочное линейное уравнение регрессии У на Х имеет вид

или, с учётом вычисленных значений,

Условное среднее при x = x_i вычисляется по формуле

где - число выборочных значений y_j, наблюдавшихся при данном x_i . Согласно данным из таблицы находим

Значения условных средних , отыскиваемые по уравнению регрессии:

Отклонения значений ,

будут d₁ = 0-0.45=-0.45; d₂ = 2.6- 1.96 = 0.65; d₃ = -0.51, d₄ = 0.55; d₅ = -0.05;

d₆ = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄

Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;

X У						n_y






n_х						n=100

По данным исследования требуется:

1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи;

2) оценить тесноту линейной корреляционной связи;

3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α=0,05;

4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат;

5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов.

1.Для построения эмпирических ломаных регрессии вычислим условные средние и Вычисляем . Так как при х=5 признак Y имеет распределение

YY
n_i

то условное среднее .

При х=15 признак Y имеет распределение

Y
n_i

тогда .

Аналогично вычисляются все и . Получим таблицы, выражающие корреляционную зависимость Y от X (табл.2) и X от Y (табл.3).

Таблица 2

x
	130,8	132,86	135,74	137,08	137,86

Таблица 3

y
	6,25		19,54	32,35		43,57

В прямоугольной системе координат построим точки А_i(х_i, ), соединив их отрезками, получим эмпирическую линию регрессии Y на X. Аналогично строятся точки В_j( ,y_j) и эмпирическая линия регрессии X на Y (см. рис.).

Построенные эмпирические ломаные регрессии Y на X и X на Y свидетельствуют о том, что между количеством работающих (X) и объёмом складских реализаций (Y) существует линейная зависимость. Из графика видно, что с увеличением X величина также увеличивается, поэтому можно выдвинуть гипотезу о прямой линейной корреляционной зависимости между количеством работающих и объёмом складских реализаций.

2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам

, , , , ,

, : ;

; ; ;

Это значение r_B говорит о том, что линейная связь между количеством работников и объемом складских реализаций высокая. Этот вывод подтверждает первоначальное предположение, сделанное исходя из графика.

3. Запишем теоретические уравнения линейной регрессии:

, .

Подставляя в эти уравнения найденные величины, получаем искомые уравнения регрессии:

1) уравнение регрессии Y на X:

, или ;

2) уравнение регрессии X на Y:

, или .

Построим графики найденных уравнений регрессии. Зададим координаты двух точек, удовлетворяющих уравнению . Пусть х = 10, тогда , А₁(10; 132,41), Если х = 40, тогда , А₂(40; 137,51). Аналогично находим точки, удовлетворяющие уравнению , В₁(10,2; 131), В₂(43; 139). Графики прямых линий регрессии изображены ниже на рисунке.

Контроль: точка пересечения прямых линий регрессии имеет координаты . В нашем примере: С(29,8; 135,78).

4. Найдём среднее значение Y при х=40 чел., используя уравнение регрессии Y на X. Подставим в это уравнение х=40, получим

Ожидаемое в генеральной совокупности среднее значение объёма складских реализаций при заданном количестве работников (х=40) составляет 137,51 д.е.

Замечание 1. Если в корреляционной таблице даны интервальные распределения, то за значения вариант надо брать середины частичных интервалов.

Замечание 2. Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам:

, ,

где h₁ – шаг, т.е. разность между двумя соседними вариантами x_i; С₁ – «ложный нуль» вариант x_i (в качестве «ложного нуля» удобно принять варианту, которая расположена примерно в середине ряда); h₂ – шаг вариант Y; С₂ – «ложный нуль» вариант Y.

В этом случае выборочный коэффициент корреляции

где , ,

, .

Зная эти величины, находят , , σ_х, σ_упо формулам

, , , .

Найденные величины подставляем в уравнения (10).

Так в данном примере С₁ =25, h₁=10, С₂=136, h₂=2; , .

Корреляционная таблица в условных вариантах имеет вид

U V	-2	-1	n_y
-3
-2
-1



n_x			n=100

По этой таблице и приведённым выше формулам находим характеристики:

;

; ;

;

; .

В результате получаем те же уравнения линейной регрессии:

; .◄

<== previous lecture	\|	next lecture ==>
Доверительные интервалы для оценки среднего квадратического	\|	Методом наименьших квадратов

lektsiopedia.org - 2013 год. | Page generation: 0.405 s.