Критерий для проверки гипотезы

Date: 2015-10-07; view: 422.

Основные понятия.

СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ

В исследованиях часто возникает необходимость знать закон распределения изучаемого признака генеральной совокупности. С этой целью производят наблюдения и получают опытное (или эмпирическое) распределение случайной величины в виде вариационного ряда. Поставленная задача сводится к оценке закона распределения признака в генеральной совокупности на основе выборочных данных.

Распределение признака в выборке называется эмпирическим распределением. Распределение признака в генеральной совокупности называется теоретическим распределением. Статистической гипотезой называют гипотезу о виде неизвестного распределения генеральной совокупности или о параметрах известных распределений.

Нулевой (основной) называют выдвинутую гипотезу Н₀. Конкурирующей (альтернативной)называют гипотезу Н₁, которая противоречит нулевой.

Пример. Пусть Н₀ заключается в том, что математическое ожидание генеральной совокупности а = 3. Тогда возможные варианты Н₁: а) а ≠ 3; б) а > 3; в) а < 3. ◄

Простой называют гипотезу, содержащую только одно предположение, сложной – гипотезу, состоящую из конечного или бесконечного числа простых гипотез.

Пример. Для показательного распределения гипотеза Н₀: λ = 2 – простая, Н₀: λ > 2 – сложная, состоящая из бесконечного числа простых ( вида λ = с, где с – любое число, большее 2). ◄

В результате проверки правильности выдвинутой нулевой гипотезы ( такая проверка называется статистической, так как производится с применением методов математической статистики) возможны ошибки двух видов: ошибка первого рода, состоящая в том, что будет отвергнута правильная нулевая гипотеза, и ошибка второго рода, заключающаяся в том, что будет принята неверная гипотеза.

Замечание. Какая из ошибок является на практике более опасной, зависит от конкретной задачи. Например, если проверяется правильность выбора метода лечения больного, то ошибка первого рода означает отказ от правильной методики, что может замедлить лечение, а ошибка второго рода (применение неправильной методики) чревата ухудшением состояния больного и является более опасной.

Вероятность ошибки первого рода называется уровнем значимости α.

Основной прием проверки статистических гипотез заключается в том, что по имеющейся выборке вычисляется значение некоторой случайной величины, имеющей известный закон распределения.

Статистическим критерием называется случайная величина К с известным законом распределения, служащая для проверки нулевой гипотезы.

Критической областью называют область значений критерия, при которых нулевую гипотезу отвергают, областью принятия гипотезы – область значений критерия, при которых гипотезу принимают.

Итак, процесс проверки гипотезы состоит из следующих этапов:

1) выбирается статистический критерий К;

2) вычисляется его наблюдаемое значение К_набл по имеющейся выборке;

3) поскольку закон распределения К известен, определяется (по известному уровню значимости α) критическое значениеk_кр, разделяющее критическую область и область принятия гипотезы (например, если р(К > k_кр) = α, то справа от k_кр располагается критическая область, а слева – область принятия гипотезы);

4) если вычисленное значение К_набл попадает в область принятия гипотезы, то нулевая гипотеза принимается, если в критическую область – нулевая гипотеза отвергается.

Различают разные виды критических областей:

- правостороннююкритическую область, определяемую неравенством

K > k_кр ( k_кр > 0);

- левостороннюю критическую область, определяемую неравенством

K < k_кр ( k_кр < 0);

- двустороннюю критическую область, определяемую неравенствами

K < k₁, K > k₂ (k₂> k₁).

Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что верна конкурирующая гипотеза.

Если обозначить вероятность ошибки второго рода (принятия неправильной нулевой гипотезы) β, то мощность критерия равна 1 – β. Следовательно, чем больше мощность критерия, тем меньше вероятность совершить ошибку второго рода. Поэтому после выбора уровня значимости следует строить критическую область так, чтобы мощность критерия была максимальной.

■▬▬►

о вероятности события.

Пусть проведено п независимых испытаний (п – достаточно большое число), в каждом из которых некоторое событие А появляется с одной и той же, но неизвестной вероятностью р, и найдена относительная частота появлений А в этой серии испытаний. Проверим при заданном уровне значимости α нулевую гипотезу Н₀, состоящую в том, что вероятность р равна некоторому значению р₀.

Примем в качестве статистического критерия случайную величину

, (1)

имеющую нормальное распределение с параметрами M(U) = 0, σ(U) = 1 (то есть нормированную). Здесь q₀ = 1 – p₀. Вывод о нормальном распределении критерия следует из теоремы Лапласа (при достаточно большом п относительную частоту можно приближенно считать нормально распределенной с математическим ожиданием р и средним квадратическим отклонением ).

Критическая область строится в зависимости от вида конкурирующей гипотезы.

1) Если Н₀: р = р₀, а Н₁: р ≠ р₀, то критическую область нужно построить так, чтобы вероятность попадания критерия в эту область равнялась заданному уровню значимости α. При этом наибольшая мощность критерия достигается тогда, когда критическая область состоит из двух интервалов, вероятность попадания в каждый из которых равна . Поскольку U симметрична относительно оси Оу, вероятность ее попадания в интервалы (-∞; 0) и (0; +∞) равна 0,5, следовательно, критическая область тоже должна быть симметрична относительно Оу. Поэтому и_кр определяется по таблице значений функции Лапласа из условия , а критическая область имеет вид .

Замечание. Предполагается, что используется таблица значений функции Лапласа, заданной в виде , где нижний предел интегрирования равен 0, а не -∞. Функция Лапласа, заданная таким образом, является нечетной, а ее значения на 0,5 меньше, чем значения стандартной функции Ф(х).

Далее нужно вычислить наблюдаемое значение критерия:

. (2)

Если |U_набл| < u_кр, то нулевая гипотеза принимается.

Если |U_набл| > u_кр, то нулевая гипотеза отвергается.

2) Если конкурирующая гипотеза Н₁: р > p₀, то критическая область определяется неравенством U > u_кр, то есть является правосторонней, причем р(U > u_кр) = α. Тогда . Следовательно, и_кр можно найти по таблице значений функции Лапласа из условия, что . Вычислим наблюдаемое значение критерия по формуле (2). Если U_набл < u_кр, то нулевая гипотеза принимается. Если U_набл > u_кр, то нулевая гипотеза отвергается.

3) Для конкурирующей гипотезы Н₁: р < p₀ критическая область является левосторонней и задается неравенством U <- u_кр, где и_кр вычисляется так же, как в предыдущем случае. Если U_набл > - u_кр, то нулевая гипотеза принимается.

Если U_набл < - u_кр, то нулевая гипотеза отвергается.

Пример. Пусть проведено 50 независимых испытаний, и относительная частота появления события А оказалась равной 0,12. Проверим при уровне значимости α = 0,01 нулевую гипотезу Н₀: р = 0,1 при конкурирующей гипотезе Н₁: р > 0,1. Найдем Критическая область является правосторонней, а и_кр находим из равенства Ф(и_кр) = Из таблицы значений функции Лапласа определяем и_кр = 2,33. Итак, U_набл < u_кр, и гипотеза о том, что р = 0,1, принимается.

<== previous lecture	\|	next lecture ==>
Свойства выборочного коэффициента корреляции Спирмена.	\|	Биномиальных распределений

lektsiopedia.org - 2013 год. | Page generation: 0.196 s.