rus | ua | other
Home
Random lecture
|
Для несгруппированных данных
Date: 2015-10-07; view: 470.
Построение модели линейной регрессии
Лабораторная работа № 3
Цель работы: овладение способами построения моделей линейной регрессии для несгруппированных данных, выработка умения и навыков оценки надежности коэффициента корреляции, уравнения регрессии и его коэффициентов.
Содержание работы: на основании опытных данных требуется:
1. Построить корреляционное поле. По характеру расположения точек в корреляционном поле выбрать общий вид функции регрессии.
2. Вычислить числовые характеристики , , , , , .
3. Определить значимость коэффициента корреляции и найти для него доверительный интервал с надежностью .
4. Написать эмпирические уравнения линий регрессий на и на .
5. Вычислить коэффициент детерминации и объяснить его смысловое значение.
6. Проверить адекватность уравнения регрессии на .
7. Провести оценку величины погрешности уравнения регрессии на и его коэффициентов.
8. Построить уравнение регрессии на в первоначальной системе координат.
Выполнение лабораторной работы покажем, решая следующую задачу.
Задача. Результаты наблюдений изменения средней заработной платы (тыс. руб.) и производительности труда (тыс. руб.) по цеху технологической связи ТПЭУС № 1 по кварталам приведены в табл. 23.
| Таблица 23
| | Производительность труда, (тыс. руб.)
| 24,3
| 24,9
| 28,1
| 30,5
| 31,5
| 39,3
| 40,2
| 43,5
| 45,4
| 45,9
| | Средняя зарплата, (тыс. руб.)
| 8,2
| 8,6
| 8,7
| 8,9
| 9,1
| 10,6
| 11,3
| 11,8
| 12,9
| 13,1
|
Выполнение работы
Для решения поставленной задачи методами корреляционного анализа определим, какой из указанных в условии показателей выбрать за факторный признак, а какой за результативный. На основании экономического анализа производственной деятельности и взаимосвязи производительности трудаи средней заработной платы следует, что за факторный признак следует принять производительность труда, а среднюю зарплату за результативный признак .
Для определения формулы связи между признаками и в системе координат строим точки , пользуясь табл. 23.

Рис. 8
Около построенных точек проводим линию трэнда (пунктирная линия). По расположению точек около этой линии делаем вывод о том, что связь между производительностью труда и средней зарплатой может носить линейный характер. произведем расчет статистик , , , , , которые войдут в уравнения линий регрессий. Составим расчетную табл. 24
| Таблица 24
|
|
|
|
|
|
|
|
| | 24,3
| -11,06
| 122,3236
| 8,2
| -2,12
| 4,4944
| 590,49
| 199,26
| | 24,9
| -10,46
| 109,4116
| 8,6
| -1,72
| 2,9584
| 620,01
| 214,14
| | 28,1
| -7,26
| 52,7076
| 8,7
| -1,62
| 2,6244
| 789,61
| 244,47
| | 30,5
| -4,86
| 23,6196
| 8,9
| -1,42
| 2,0164
| 930,25
| 271,45
| | 31,5
| -3,86
| 14,8996
| 9,1
| -1,22
| 1,4884
| 992,25
| 286,65
| | 39,3
| 3,94
| 15,5236
| 10,6
| 0,28
| 0,0784
| 1544,49
| 416,58
| | 40,2
| 4,84
| 23,4256
| 11,3
| 0,98
| 0,9604
| 1616,04
| 454,26
| | 43,5
| 8,14
| 66,2596
| 11,8
| 1,48
| 2,1904
| 1892,25
| 513,3
| | 45,4
| 10,04
| 100,8016
| 12,9
| 2,58
| 6,6564
| 2061,16
| 585,66
| | 45,9
| 10,54
| 11,0916
| 13,1
| 2,78
| 7,7284
| 2106,81
| 601,29
| | 353,6
|
| 640,064
| 103,2
|
| 31,196
| 13143,36
| 3787,06
|
Пользуясь результатами последней строки табл. 24, находим:
— средняя производительность труда.
— средняя зарплата сотрудников цеха технологический связи.
, ,
, ,
,
.
Проверяем ”значимость” коэффициента корреляции. Вычислим статистику по формуле (59):
.
По таблице критических точек распределения Стьюдента (приложение ) по уровню значимости и числу степеней свободы находим . Так как , то выборочный коэффициент корреляции значимо отличается от нуля. Следовательно, можно предположить, что средняя зарплата и производительность труда рабочих связаны линейной регрессионной зависимостью. Подтверждением может служить рис. 8.
Находим доверительный интервал для выборочного коэффициента корреляции с надежностью . Так как объем выборки , то доверительный интервал находим по формуле (61):
.
Так как по условию надежность (доверительная вероятность) , то по таблице функции Лапласа (приложение) находим . Вычисляем среднюю квадратическую ошибку по формуле (60):
.
Записываем доверительный интервал: или . Следовательно, с вероятностью 0,95 линейный коэффициент корреляции генеральной совокупности находится в пределах от 0,71 до 1. Применительно к решаемой задаче полученный результат означает, что по имеющейся выборке следует ожидать влияние производительности труда на рост средней зарплаты работников цеха технологической связи не менее чем на 71 %.
Найдем эмпирические линейные уравнения регрессии на и на , которые являются приближенными уравнениями для истинных уравнений регрессий.
Уравнение регрессии на :

или .
Уравнение регрессии на :

или .
Контроль вычислений: .
. Так как выполняется условие , то вычисления проведены верно.
Из уравнения следует, что при увеличении производительности труда на 1 тыс. руб. средняя зарплата работников цеха технологической связи возрастает на 192,989 рублей. Этот результат следует учесть на предприятии при разработке мероприятий по стимулированию производственной деятельности работников цеха в условиях рыночных отношений.
Подставляя в уравнения регрессий и , получаем точки, координаты которых совпадают с координатами центра распределения . Cледовательно, линии регрессий пересекаются в точке .
Находим коэффициент детерминации. Для линейной регрессии при вычисленном коэффициенте он равен . У нас . Это означает, что 76 % рассеивания средней зарплаты работников технологического цеха связи объясняется линейной регрессионной зависимостью между средней зарплатой и производительностью труда, и только 24 % рассеивания средней зарплаты работников технологического цеха остались необъяснимыми. Такое положение могло произойти из-за того, что в модель не включены другие факторы, влияющие на изменение средней зарплаты работников технологического цеха связи, либо опытных данных в данной выборке не достаточно, чтобы построить более надежное уравнение регрессии.
Проверим адекватность уравнения линейной регрессии на по критерию Фишера-Снедекора. Вычислим статистики по формуле (64):
, где .
Для нахождения суммы составляем табл. 25.
| Таблица 25
|
|
|
|
| | 8,2
| 8,18
| 0,02
| 0,0004
| | 8,6
| 8,3
| 0,3
| 0,09
| | 8,7
| 8,9
| –0,2
| 0,04
| | 8,9
| 9,4
| –0,5
| 0,25
| | 9,1
| 9,6
| –0,5
| 0,25
| | 10,6
| 11,1
| –0,5
| 0,25
| | 11,3
| 11,25
| 0,05
| 0,0025
| | 11,8
| 11,9
| –0,1
| 0,01
| | 12,9
| 12,2
| 0,7
| 0,49
| | 13,1
| 12,4
| 0,7
| 0,49
| |
|
|
| 1,8729
|
Из табл. 24 и 25 находим: , . Тогда
, .
При уровне значимости и числах степеней свободы , по таблице критических точек распределения Фишера-Снедекора (приложение) находим . Так как , то заключаем, что есть уравнение линейной регрессии статистически значимо описывает результаты эксперимента.
Проведем оценку величины погрешности уравнения регрессии . Найдем относительную погрешность уравнения по формуле (67):
, где , , .
Так как , то . Для нахождения суммы составляем табл. 26.
| Таблица 26
|
|
|
| | 0,02
| –0,17
| 0,0289
| | 0,03
| –0,16
| 0,0256
| | –0,2
| –0,39
| 0,1521
| | –0,5
| –0,69
| 0,4761
| | –0,5
| –0,69
| 0,4761
| | –0,5
| –0,69
| 0,4761
| | 0,05
| –0,14
| 0,0196
| | –0,1
| –0,29
| 0,0841
| | 0,7
| 0,51
| 0,2601
| | 0,7
| 0,51
| 0,2601
| |
|
| 2,2588
|
Тогда , .
Так как величина мала, то уравнение линейной регрессии хорошо описывает опытные данные.
Оценим коэффициенты уравнения регрессии. У нас , . Для нахождения отношений и вычислим средние квадратические ошибки коэффициентов по формулам (68) и (69):
, , .
По табл. 24 находим: , . Учитывая, что , и , находим:
,
,
.
Так как и , то коэффициенты и уравнения регрессии на значимы. Графики найденных линейных уравнений регрессий построены на рис. 8.
Таким образом, уравнение регрессии , описывающее зависимость средней зарплаты работников цеха технологической связи от производительности труда, значимо описывает опытные данные и может быть принято для практического руководства.
Варианты заданий к лабораторной работе №3.
Вариант № 1
При исследовании зависимости между средней заработной платой на одного работника (тыс. руб.) и выпуском продукции на одного работника (тыс. руб.) по заводу Пластмасс получены следующие данные:
| 21,07
| 23,07
| 28,69
| 22,42
| 21,41
| 18,49
| 21,64
| 39,19
| 51,96
| 42,36
| 51,80
| 50,45
|
| 30,2
| 47,0
| 29,6
| 39,5
| 43,9
| 47,6
| 46,6
| 28,7
| 10,8
| 16,97
| 20,1
| 23,80
|
Вариант №2
Данные о производстве дистоплива (тыс. руб.) и себестоимости единицы продукции (тыс. руб.) по “Уренгойгазпром” приведены в таблице:
Вариант №3
Компанию по прокату автомобилей интересует зависимость между пробегом автомобилей ( ) и стоимостью ежемесячного технического обслуживания ( ). Для выяснения характера этой связи было отбрано 15 автомобилей. Данные приведены в таблице:
Вариант №4
Данные зависимости мощности на долоте (кВт) осевой статической нагрузки на забой (ТС) при бурении пород Подольского горизонта Туймазинского месторождения приведены в таблице:
|
|
|
|
|
|
|
|
|
|
| 12,5
| 17,8
|
| 41,9
|
|
|
|
|
|
Вариант №5
Зависимость скорости отскока инструмента (м/с) при ударно-вращательном бурении от коэффициента пластичности долот задана таблицей:
| 1,5
| 2,5
| 3,5
| 4,5
| 5,5
| 6,5
|
| 1,2
| 0,6
| 0,21
| 0,9
| 0,8
| 0,75
|
Вариант №6
Данные о количестве выпускаемых деталей (тыс. руб.) и полных затратах на их изготовление (сотни руб.) на однотипных предприятиях приведены в таблице:
Вариант №7
При исследовании зависимости времени на обработку одной детали (мин.) от стажа работы (в годах) на Тюменском моторостроительном объединении в цехе резиново – технических и пластмассовых изделий на слесарном участке получены следующие данные:
|
|
|
|
|
|
|
|
|
| 3,33
| 2,9
| 2,2
| 2,1
|
|
|
Вариант №8
Зависимость удельного момента на долоте (кгс·м/тс) от осевой статической нагрузки на забой (тс) при бурении пород задана таблицей:
|
|
|
|
|
|
|
|
|
| 22,5
| 11,5
|
| 5,5
| 2,6
| 2,4
| 2,1
|
|
Вариант №9
Результаты измерений зависимости фазовой проницаемости воды от нефтенасыщенности породы приведены в таблице:
| 0,25
| 0,35
| 0,45
| 0,55
| 0,65
| 0,75
| 0,85
|
| 0,65
| 0,45
| 0,25
| 0,15
| 0,10
| 0,05
| 0,07
|
Вариант №10
В результате исследований установлено, что между овальностью колец после их обработки и термической обработки , существует связь, которая задана таблицей:
|
|
|
|
|
|
|
| 29,3
|
|
| 39,2
|
Вариант №11
При исследовании зависимости между выпуском готовой продукции (тыс. руб.) и коэффициентом использования техники (%) получены следующие данные:
Вариант №12
Давление (кг) воздуха на парашют возрастает при увеличении скорости (м/сек.) падения следующим образом:
| 2,23
| 3,28
| 4,65
| 6,5
| 8,1
|
| 0,3
| 0,6
| 1,2
| 2,4
| 4,2
|
Вариант №13
Прочность бетона (кг/см2) при испытании цилиндрических образцов в зависимости от отношения высоты к диаметру оказалась равной:
| 0,5
| 1,0
| 2,0
| 3,0
| 4,0
| 5,0
| 6,0
|
|
|
|
|
|
|
|
|
Вариант №14
Зависимость между размером предприятия по стоимости основных средств (млн. руб.) и себестоимостью единицы продукции (руб.) характеризуется следующими данными:
| 0,5
| 1,5
| 2,5
| 3,5
| 4,5
| 5,5
| 7,5
|
|
|
|
| 10,8
|
|
|
|
Вариант №15
Зависимость между ростом производительности труда на одного работающего (тыс. руб.) и выпуском товарной продукции (тыс. руб.) ремонтного цеха машиностроительного завода характеризуется следующими данными:
| 1,5
| 2,9
| 3,0
| 3,1
| 3,2
| 3,4
| 3,5
| 3,6
| 4,2
|
|
|
|
|
|
|
|
|
|
|
Вариант №16
Зависимость себестоимости продукции (тыс. руб.) от затрат на единицу продукции (тыс. руб.) по объединению «Сибкомплектмонтаж» характеризуется следующими данными:
| 0,1
| 0,4
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вариант №17
Компрессорную скважину исследовали на приток нефти (т/сут.) при различных режимах работы с замером забойных давлений (атм) глубинным манометром. Результаты исследований приведены в таблице:
|
|
|
|
|
|
|
| 1,25
| 1,3
| 5,25
| 11,25
| 17,25
| 21,25
|
Вариант №18
Зависимость между стоимостью основных средств предприятия (млн. руб.) и выработкой продукции (тыс. руб.) на одного работника характеризуется следующими данными:
|
| 1,5
| 2,5
| 3,5
| 4,5
| 5,5
| 6,5
|
|
|
| 6,8
| 7,9
| 8,7
|
| 9,5
| Вариант №19
Ниже приводятся данные удельного момента на долото (кг·м/тс) и осевой статистической нагрузки на забой (тс) при бурении пород на одном из месторождений Тюменской области:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 4,5
|
| 2,8
|
Вариант №20
Зависимость между мощностью предприятия (млн. ед. продукции в год) и фактическими капитальными вложениями (млн. руб.) характеризуется следующими данными:
|
|
|
|
|
|
|
| 1,2
| 2,6
| 3,8
| 4,6
| 4,9
| 5,4
|
Вариант №21
Результаты изучения зависимости между среднемесячной производительностью труда рабочего (руб) и себестоимостью одной тонны продукции (руб.) приведены в следующей таблице:
Вариант 22
Энерговооруженность труда на одного рабочего (тыс. кВт-час) и производительность труда одного рабочего (тыс. штук) изделий на ряде предприятий характеризуется следующими данными:
|
| 3,05
| 3,6
| 4,25
| 4,45
| 4,55
|
|
| 1,5
| 1,8
| 2,5
|
|
|
Вариант 23
Зависимость между стоимостью основных средств предприятий и месячным выпуском продукции характеризуется следующими данными:
Стоимость основных средств, , (млн. руб.)
|
|
|
|
|
|
|
| Месячный выпуск продукции, , (тыс. руб.)
|
|
|
|
|
|
|
| Вариант 24
Зависимость между капитальными вложениями (млн. руб.) и мощностью предприятий данного типа (млн. тонн) продукции задана таблицей:
|
|
|
|
|
|
|
| 0,9
| 2,59
| 3,67
| 4,45
| 4,95
| 5,20
|
Вариант 25
Распределение однотипных предприятий по объему произведенной за день продукции и себестоимости единицы продукции в условных единицах приведено в таблице:
Вариант 26
Результаты исследования зависимости объема зоны разрушения з. р. (см3) от предела текучести (кг/мм2) известняков приведены в таблице:
| 12,5
| 37,5
| 62,5
| 87,5
| 112,5
| 137,5
| 187,5
| з. р.
| 0,19
| 0,13
| 0,11
| 0,10
| 0,08
| 0,07
| 0,06
|
Вариант 27
Зависимость перепада давления (кг/см2) (разность между гидростатическим и пластовым давлением) от времени сек. при бурении в песчанике задана таблицей:
| 0,025
| 0,074
| 0,125
| 0,175
| 0,225
| 0,275
| 0,325
|
|
|
|
|
|
|
|
|
Вариант 28
Зависимость среднемесячной заработной платы рабочих (тыс. руб.) нефтеперерабатывающего завода от них квалификации (разряд) характеризуется следующими данными:
|
|
|
|
|
|
|
|
| 0,8
| 1,2
| 1,8
| 2,9
| 4,2
| 5,9
| 12,5
|
Вариант 29
Зависимость между размером предприятия по стоимости основных средств (млн. руб.) и себестоимостью единицы продукции (тыс. руб.) характеризуется следующими данными:
| 0,5
| 1,5
| 2,5
| 3,5
| 4,5
| 6,0
|
|
|
|
|
|
|
| 6,5
|
| 4,5
|
|
Вариант 30
Зависимость между фазовой проницаемостью нефти и насыщенностью породы нефтью характеризуется следующими данными:
| 0,35
| 0,45
| 0,55
| 0,65
| 0,75
| 0,85
|
| 0,05
| 0,1
| 0,15
| 0,45
| 0,55
| 0,75
|
§16. Лабораторная работа №4
Построение модельного уравнения линейной
регрессии для сгруппированных данных.
Цель работы: овладение способами построения моделей линейной регрессии для сгруппированных данных по методу наименьших квадратов и с использованием коэффициента линейной корреляции, выработка умения и навыков оценки надежности уравнения регрессии и его коэффициентов.
Содержание работы: по опытным данным требуется:
1. Построить корреляционное поле. По характеру расположения точек в корреляционном поле выбрать общий вид функции регрессии.
2. Написать уравнение линейной регрессии на по методу наименьших квадратов и с использованием коэффициента корреляции . Сравнить полученные уравнения и сделать вывод о выборке одного из них.
3. Оценить тесную связь между признаками и с помощью выборочного коэффициента корреляции и его значимость.
4. Проверить адекватность модельного уравнения регрессии на , записанного через коэффициент корреляции .
5. Проверить надежность уравнения регрессии на , записанного через коэффициент корреляции и его коэффициентов.
6. Построить уравнения регрессий в первоначальной системе координат.
Задача. Валики при черновой обработке на станке №1 передаются последовательно на станок №2 для чистовой обработки. Экспериментатор, изучающий зависимость между отклонениями размеров валиков от номинала при черновой обработке (мкм), от номинала при чистовой обработке (мкм) произвел измерения отклонений у 50 случайно отобранных валиков. Результаты измерений сведены в табл. 27.
| Таблица 27
|
| -30
| -20
| -10
|
|
| | -8
|
|
|
|
|
| | -4
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
Выполнение работы.
Пусть признак характеризует отклонение размеров валиков от номинала при черновой обработке, а признак отклонение размеров валиков от номинала при чистовой обработке. Используя данные табл. 27, строим корреляционное поле (рис. 9).

Проведя линию трэнда (пунктирная линия), видим, что число точек, расположенных над и под ней, практически одинаково, причем расстояния этих точек до линии трэнда одинаковые. Это дает основание предположить наличие линейной зависимости между признаками и . Для подтверждения этой гипотезы перейдем от денного распределения к новому, найдя для каждого значения признак условное среднее признака по формуле (42):
.
При , .
При , .
При , .
При , .
Строим точки с координатами (рис. 10).

Из рис. 10 видно, что отклонения точек от построенной прямой незначительны. Следовательно, связь между признаками и может носить линейный характер. Составим уравнения линий регрессий на по методу наименьших квадратов и через коэффициент линейной корреляции .
Применим метод наименьших квадратов к нахождению коэффициентов и уравнения линейной регрессии . Решаем систему нормальных уравнений (45):
.
Для нахождения сумм, входящих в систему составляем табл. 28.
| Таблица 28
|
| -30
| -20
| -10
|
|
|
| | -8
|
|
|
|
|
| -8
| | -4
|
|
|
|
|
| -20
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| -180
| -360
| -160
|
| -700
|
|
|
|
|
|
|
|
|
|
| -80
| -680
|
| -40
|
|
Пользуясь табл. 28, записываем и решаем систему уравнений:
, , 
Тогда уравнение линейной регрессии запишется в виде
(70)
Найдем уравнение линейной регрессии на по формуле (47), используя коэффициент линейной корреляции:
.
Так как данные выборки для признаков и заданы в виде корреляционной таблицы и объем выборки , то для нахождения величин, входящих в уравнение регрессии, переходим к вспомогательному распределению с условными вариантами и . По корреляционной табл. 27 находим наибольшую частоту совместного появления признаков и : . Тогда , , , . Составляем корреляционную табл. 29 в условных вариантах.
По табл. 29 находим:
,
,
,

Тогда 
.
Для нахождения суммы составляем табл. 30.
| Таблица 30
|
| -1
|
|
|
|
| | -2
| 1 2
|
|
|
|
| | -1
| 4 1
|
|
|
|
| |
|
|
|
|
|
| |
|
|
| 13 1
|
|
| |
|
|
| 2 2
| 1 4
|
| |
|
|
|
| 9 6
|
| |
|
|
|
|
|
|
Тогда:
,
,
,
, .
Записываем уравнение линий регрессий:

или
— на .

или
— на .
Проверяем тесноту связи между признаками и . Воспользуемся критерием Стьюдента. Вычисляем статистику
.
При уровне значимости и числе степеней свободы находим по таблице распределения Стьюдента . Так как , то выборочный коэффициент линейной корреляции значимо отличается от нуля. Следовательно, можно считать, что отклонение размеров валиков от номинала при черновой обработке на станке №1 и отклонение размеров валиков от номинала при чистовой обработке на станке №2 связаны линейной корреляционной зависимостью. Дадим интерпретацию, например, уравнению регрессии на . Из уравнения регрессии видно, что при отклонении от нормальных размеров валиков при черновой обработке ( ), например, на 10 мкм на станке №1 отклонение от нормального размера валиков при последующей чистовой обработке на станке №2 составит мкм. Это результат воздействия отклонений при черновой обработке валиков на станке №1. Фактически отклонение может составить мкм, что является результатом воздействия неучтенных в модели факторов, не зависящих от отклонений при черновой обработке. Уравнения линий регрессий построены на рис. 9.
Проверим полученное уравнение регрессии на на адекватность по критерию Фишера-Снедекора. Вычислим статистику
.
Составим расчетные табл. 2.10 и 2.11.
| Таблица 2.10
|
|
|
| | -8
| -11,2
| 125,44
| | -4
| -7,2
| 51,84
| |
| -3,2
| 10,24
| |
| 0,8
| 0,64
| |
| 4,8
| 23,04
| |
| 8,8
| 77,44
| |
|
|
|
| | Таблица 2.11
|
|
|
| | -4
| -7,2
| 51,84
| | 0,2
| -3
|
| | 4,3
| 1,1
| 1,21
| | 11,6
| 8,4
| 70,56
| |
|
|
|
|
Находим . По условию , . Тогда
.
При уровне значимости и числах степеней свободы , по таблице критических точек распределения Фишера-Снедекора находим . Так как , то модель линейной регрессии согласуется с опытными данными.
Итак, мы получили два уравнения линейной регрессии на , описывающих зависимость между признаками и . При подстановке в каждое из них опытных значений признака убеждаемся в том, что уравнение (70), полученное по методу наименьших квадратов без использования коэффициента линейной корреляции , дает лучшие значения признака , чем уравнение (71). Однако практика решения инженерных задач, связанных с построением однофакторных моделей линейной регрессии показывает, что не всегда уравнения, полученные без применения коэффициента корреляции , лучше уравнений с его применением. Поэтому, проводя моделирование в случае сгруппированных экспериментальных данных, следует строить обе модели линейной регрессии и выбирать лучшую из них.
|