Определение 19.4. Вероятность ошибки первого рода называется уровнем значимости α.
Основной прием проверки статистических гипотез заключается в том, что по имеющейся выборке вычисляется значение некоторой случайной величины, имеющей известный закон распределения.
Определение 19.5. Статистическим критерием называется случайная величина К с известным законом распределения, служащая для проверки нулевой гипотезы.
Определение 19.6. Критической областью называют область значений критерия, при которых нулевую гипотезу отвергают, областью принятия гипотезы – область значений критерия, при которых гипотезу принимают.
Итак, процесс проверки гипотезы состоит из следующих этапов:
· выбирается статистический критерий К;
· вычисляется его наблюдаемое значение Кнабл по имеющейся выборке;
· поскольку закон распределения К известен, определяется (по известному уровню значимости б) критическое значение kкр, разделяющее критическую область и область принятия гипотезы (например, если р(К > kкр) = б, то справа от kкр располагается критическая область, а слева – область принятия гипотезы);
· если вычисленное значение Кнабл попадает в область принятия гипотезы, то нулевая гипотеза принимается, если в критическую область – нулевая гипотеза отвергается.
Различают разные виды критических областей:
· правостороннюю критическую область, определяемую неравенством K > kкр ( kкр > 0);
· левостороннюю критическую область, определяемую неравенством K < kкр ( kкр < 0);
· двустороннюю критическую область, определяемую неравенствами K < k1, K > k2 (k2 > k1).
Определение 19.7. Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что верна конкурирующая гипотеза. Если обозначить вероятность ошибки второго рода (принятия неправильной нулевой гипотезы) в, то мощность критерия равна 1 – в. Следовательно, чем больше мощность критерия, тем меньше вероятность совершить ошибку второго рода. Поэтому после выбора уровня значимости следует строить критическую область так, чтобы мощность критерия была максимальной.
В ряде случаев оказывается достаточно трудно, а иногда и невозможно определить даже хотя бы приблизительно не только априорные вероятности гипотез, но и цены решений. Классическим примером такой ситуации является обнаружение сигналов в радиолокации. То же самое имеет место и в системах передачи дискретных сообщений при обнаружении начала информационной последовательности (радиограммы, команды и т.п.).
В этих условиях обычно приходится задаваться некоторым значением вероятности ошибочного решения при справедливости одной из гипотез (например, ) и выбирать стратегию, обеспечивающую минимальное значение вероятности ошибочного решения при справедливости другой гипотезы . Такой критерий оптимизации стратегии называется критерием Неймана-Пирсона. Применительно к случаю радиолокационного обнаружения задаются вероятностью ошибочной регистрации сигнала при наличии на входе только шума, называемой вероятностью ложной тревоги . Минимизируемая вероятность при этом носит название вероятности пропуска цели .
Можно показать, что стратегия, оптимальная по Нейману-Пирсону, по-прежнему сводится к сравнению величины отношения правдоподобия с некоторым пороговым значением , определяемым в данном случае требуемым значением вероятности ложной тревоги .
Значимости уровень статистического критерия, вероятность ошибочно отвергнуть основную проверяемую гипотезу, когда она верна. В теории статистической проверки гипотез З. у. называется вероятностью ошибки первого рода. Понятие "З. у." возникло в связи с задачей проверки согласованности теории с опытными данными. Если, например, в результате наблюдений регистрируются значения n случайных величин X1,..., Xn и если требуется по этим данным проверить гипотезу Н, согласно которой совместное распределение величин X1,..., Xn обладает некоторым определённым свойством, то соответствующий статистический критерий конструируется с помощью подходящим образом подобранной функции Y = f (X1,..., Xn); эта функция обычно принимает малые значения, когда гипотеза Н верна, и большие значения, когда Н ложна. В частности, если X1,..., Xn - результаты независимых измерений некоторой известной постоянной а и гипотеза Н представляет собой предположение об отсутствии в результатах измерений систематических ошибок, то для проверки Н разумно в качестве Y выбрать (2m - n)2, где m - количество тех результатов измерений X1, которые превышают истинное значение а. Наблюдаемое в опыте большое значение Y можно рассматривать как значимое статистическое опровержение гипотетического согласия между результатами наблюдений и проверяемой гипотезой. Соответствующий критерий значимости представляет собой правило, согласно которому значимыми считаются значения Y, превосходящие заданное критическое значение у. В свою очередь выбор величины у определяется заданным З. у., который в случае справедливости гипотезы Н совпадает с вероятностью события {Y>y}.
Мы рассматриваем независимую выборку , обозначая неизвестную функцию распределения . Нас интересует вопрос о том, согласуются ли данные наблюдений с простой гипотезой
где -- некоторая конкретная фиксированная функция распределения.
Вначале разобъем множество на конечное число непересекающихся подмножеств . Пусть -- вероятность, соответствующая функции распределения , обозначим Очевидно, что
Теперь сделаем группировку данных аналогично процедуре, описанной в 6.3, а именно, определим
(50)
Очевидно, что в силу случайных колебаний эмпирические частоты будут отличаться от теоретических вероятностей . Чтобы контролировать это различие, следует подобрать хорошую меру расхождения между экспериментальными данными и гипотетическим теоретическим распределением. По аналогии с идеей метода наименьших квадратов в качестве такой меры расхождения можно взять, например, , где положительные числа можно выбирать более или менее произвольно. Как показал К. Пирсон, если выбрать , то полученная величина будет обладать рядом замечательных свойств. Таким образом, положим
(51)
Подчеркнем, что величина вычисляется по выборке. Функцию принято называть статистикой Пирсона. Обсудим ее свойства.
Поведение , когда гипотеза верна.
Речь идет о поведении при увеличении объема выборки: .
Теорема К. Пирсона. Предположим, что гипотеза верна. Тогда при распределение величины сходится к распределению хи-квадрат с степенью свободы, то есть,
Практический смысл этой теоремы в том, что при большом объеме выборки распределение можно считать распределением хи-квадрат с степенью свободы.
Поведение , когда гипотеза неверна.
Предположим теперь, что и разбиение таково, что
где вероятности вычислены по функции распределения . Тогда можно показать (см., например, [13, § 10.4]), что
(52)
То обстоятельство, что поведение существенно различно в зависимости от того верна или нет гипотеза , дает возможность построить критерий для ее проверки. Зададимся некоторым уровнем значимости (допустимой вероятностью ошибки) и возьмем квантиль , определенную формулой (45):
Определим критическое множество :
Таким образом, наши действия по принятию (или отвержению) гипотезы состоят в следующем. Подстановкой имеющихся данных в формулу (51) вычисляется значение функции , которое затем сравнивается с :
если , то гипотеза отвергается (при этом говорят, что выборка обнаруживает значимое отклонение от гипотезы ),
если , то гипотеза принимается (говорят, что выборка совместима с гипотезой ).
Действительно, такое решающее правило соответствует вышеизложенным фактам о поведении функции . Приведем аргументы, основанные на здравом смысле, свидетельствующие в пользу этого решающего правила. Если значения функции оказались ``слишком большими'', то, принимая во внимание (52), разумно считать, что гипотеза не имеет места. Если же значения ``не слишком большие'', то, скорее всего, гипотеза верна, поскольку это согласуется с теоремой Пирсона.
При таком решающем правиле мы может допустить ошибку, отвергнув верную гипотезу . Из теоремы Пирсона вытекает, что при больших величина вероятности этой ошибки близка к .
Регрессии. Линейная регрессия для системы двух случайных величин. Основные аспекты множественной регрессии. Нелинейная регрессия. Метод наименьших квадратов.
Пусть наблюдаемая случайная величина зависит от случайной величины или случайного вектора . Значения мы либо задаем, либо наблюдаем. Обозначим через функцию, отражающую зависимость среднего значения от значений :
(29)
Функция называется линией регрессии на , а уравнение -- регрессионным уравнением.
В регрессионном анализе изучается односторонняя зависимость переменной Y от одной или нескольких переменных X1 ,... ,Xk . Переменную Y называют функцией отклика или объясняемой переменной, а X1 ,... ,Xk - объясняющими переменными. Основная задача регрессионного анализа - установление формы зависимости между объясняемой и объясняющими переменными и анализ достоверности модельных параметров этой зависимости.
Пусть требуется найти аналитический вид (формулу вычисления) некоторого экономического показателя Y.
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17