|
Описательная статистика и графикиDate: 2015-10-07; view: 457. Лабораторная работа 2. Заключение – 5 минут
СПАСИБО за сотрудничество!
ШКОЛА ЗДОРОВЬЯ.. 1 ВВЕДЕНИЕ.. 1 Занятие 1. ЧТО НАДО ЗНАТЬ ОБ АРТЕРИАЛЬНОЙ ГИПЕРТОНИИ?. 3 Занятие 2. ЗДОРОВОЕ ПИТАНИЕ. 15 Занятие 3. ОЖИРЕНИЕ И АРТЕРИАЛЬНАЯ ГИПЕРТОНИЯ.. 27 Занятие 4. ФИЗИЧЕСКАЯ АКТИВНОСТЬ И ЗДОРОВЬЕ.. 43 Занятие 5. КУРЕНИЕ И ЗДОРОВЬЕ.. 53 Занятие 6. СТРЕСС И ЗДОРОВЬЕ.. 65 Занятие 7. МЕДИКАМЕНТОЗНОЕ ЛЕЧЕНИЕ АРТЕРИАЛЬНОЙ ГИПЕРТОНИИ.. 75 ПРИЛОЖЕНИЕ к занятию 7. 82 Занятие 8. ЗАКЛЮЧИТЕЛЬНОЕ ЗАНЯТИЕ.. 91
В программе STATISTICA (модуль Basic Statistics ð Descriptive Statistics) можно посчитать: · Количество значений (Valid N) · Сумма всех значений (Sum) · Минимум и максимум (Minimum & Maximum) — это минимальное и максимальное значения переменной. · Среднее (Mean) — сумма значений переменной, деленная на N (число значений переменной). · Дисперсия (Variance) и стандартное отклонение (Standard deviation) — наиболее часто используемые меры изменчивости переменной. Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны. Стандартное отклонение вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего. Часто стандартное отклонение — более удобная характеристика, т. к измерена в тех же единицах, что исходная величина. · Медиана (Median) разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина — выше. Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например, при описании доходов населения, медиана более удобна, чем среднее. · Мода (Mode) представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной), например, популярная передача на телевидении, модный цвет платья или марка автомобиля и т. д. Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения. Классический пример использования моды — выбор размера выпускаемой партии обуви или цвета обоев. Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-либо, то мультимодальность может означать, что существует несколько определенно различных мнений. Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями. · Доверительный интервал (95% confidence limits of mean) для среднего представляет интервал значений вокруг оценки, где с данным уровнем доверия находится "истинное" (неизвестное) среднее генеральной совокупности. Например, если среднее выборки равно 23, а нижняя и верхняя границы доверительного интервала с уровнем p=.95 равны 19 и 27 соответственно, то можно заключить, что с вероятностью 95% интервал с границами 19 и 27 накрывает среднее генеральной совокупности. Если вы установите больший уровень доверия, то интервал станет шире, поэтому возрастает вероятность, с которой он "накрывает" неизвестное среднее генеральной совокупности, и наоборот. Хорошо известно, например, что чем "неопределенней" прогноз погоды (т.е. шире доверительный интервал), тем вероятнее он будет верным. Заметим, что ширина доверительного интервала зависит от объема или размера выборки, а также от разброса (изменчивости) данных. Увеличение размера выборки делает оценку среднего более надежной. Увеличение разброса наблюдаемых значений уменьшает надежность оценки. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. Если это предположение не выполнено, то оценка может оказаться плохой, особенно для малых выборок. При увеличении объема выборки, скажем, до 100 или более, качество оценки улучшается и без предположения нормальности выборки. · Стандартная ошибка среднего значения (Standard error of mean) - это стандартное отклонение, деленное на квадратный корень из объема выборки. В интервале шириной, равной удвоенной стандартной ошибке, отложенному вокруг среднего значения, располагается среднее значение генеральной совокупности с вероятностью примерно 67%. Стандартная ошибка, как и стандартное отклонение, может использоваться в качестве меры разброса переменной. По так называемому правилу кулака, в одном диапазоне стандартного отклонения (охватывающем ширину стандартного отклонения в обе стороны от среднего значения) располагается примерно 67% значений, в диапазоне удвоенного стандартного отклонения – примерно 95%, а в диапазоне утроенного стандартного отклонения – примерно 99% значений. С другой стороны, стандартная ошибка позволяет задать доверительный интервал для среднего значения. В диапазоне удвоенной стандартной ошибки по обе стороны от среднего значения с вероятностью примерно 95% находится среднее значение генеральной совокупности. С вероятностью примерно 99% оно лежит в диапазоне утроенной стандартной ошибки. Часто указывают только одну из мер разброса, обычно – стандартную ошибку, так как ее значение меньше. Но у нас на факультете почти всегда используется стандартное отклонение.
· Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз пополам. Таким образом, медиана и квартили делят диапазон значений переменной на четыре равные части. Различают верхний квартиль, который больше медианы и делит пополамверхнюю часть выборки (значения переменной больше медианы), и нижний квартиль, который меньше медианы и делит пополам нижнюю часть выборки (Lower and Upper quartiles). Нижний квартиль часто обозначают символом 25%, это означает, что 25%значений переменной меньше нижнего квартиля. Верхний квартиль часто обозначают символом 75%, это означает, что 75% значений переменной меньше верхнего квартиля. · Размах (Range) - разница между наибольшим и наименьшим значением переменной · Квартильный (внутриквартильный) размах(Quartile Range) - равен разности значений верхнего и нижнего квартиля. Таким образом, это интервал, содержащий медиану, в который попадает 50% наблюдений. · Асимметрия(Skewness), или коэффициент асимметрии, является мерой несимметричности распределения. Если этот коэффициент значительно отличается от 0, распределение является асимметричным, т.е. несимметричным. Формально имеем: А = где · Эксцесс(Kurtosis), или коэффициент эксцесса измеряет остроту пика распределения. Оценка эксцесса вычисляется по формуле: E= Коэффициент эксцесса равен нулю, если наблюдения подчиняются нормальному распределению. Если он значительно отличается от нулю, гипотезу о том, что данные взяты из нормального распределенной генеральной совокупности, следует отвергнуть. · Стандартные ошибки асимметрии и эксцесса (Standard error of skewness, Standard error of kurtosis) – это и есть стандартные ошибки асимметрии и эксцесса, аналогичные стандартной ошибке среднего. Задание 2: данные о стаже и зарплате Методическое указание: после выполнения каждого задания сохраняйте матрицу данных в своей папке.
1. Загрузите файл данных. 1.1. Скопируйте файл S\Data Analysis\Empl_Data.sta в свою рабочую папку. 1.2. В STATISTICA Module Switcher выберите модуль Basic Statistics и пока нажмите кнопку Cancel. 1.3. Загрузите файл Empl_Data.sta: File ð Open Data ð…
|