Участник:Eugeny/Алгоритм сравнения эмпирического распределения с теоретическим

Материал из Алговики
Перейти к навигации Перейти к поиску

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Теоретическая функция распределения в теории вероятностей — функция, характеризующая распределение случайной величины или случайного вектора; вероятность того, что случайная величина X примет значение, строго меньшее или равное х, где х — произвольное действительное число.
Эмпирическая функция распределения — это приближение теоретической функции распределения, построенное с помощью выборки из него.

Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(x) определяет вероятность события , а эмпирическая – относительную частоту этого же события.

В практической работе часто возникает необходимость определить соответствие эмпирического и теоретического распределения или двух и более эмпирических распределений между собой. Общие принципы сравнения основываются на анализе так называемой нулевой гипотезы. Согласно этой гипотезе первоначально принимается, что между эмпирическим и теоретическим распределением признака в генеральной совокупности достоверного различия нет. Статистический анализ должен привести или к отклонению нулевой гипотезы, если доказана достоверность полученных различий, или к ее сохранению, если достоверность различий не доказана, т.е. различия признаны случайными.

1.2 Математическое описание алгоритма

Процедура проверки гипотез с использованием критериев типа χ2 предусматривает группирование наблюдений. Область определения случайной величины разбивают на k непересекающихся интервалов граничными точками
[math]x_{(0)},x_{(1)},...,x_{(k-1)},x_{(k)}[/math]
где [math]x_{(0)}[/math] — нижняя грань области определения случайной величины; [math]x_{(k)}[/math] — верхняя грань. В соответствии с заданным разбиением подсчитывают число [math]n_{i}[/math] выборочных значений, попавших в [math]i[/math] -й интервал, и вероятности попадания в интервал
[math]P_{i}(\theta )=F(x_{(i)},\theta )-F(x_{(i-1)},\theta ) [/math],
соответствующие теоретическому закону с функцией распределения [math]F(x,\theta )[/math].
При этом
[math]n=\sum _{i=1}^{k}n_{I}[/math] и [math]\sum _{i=1}^{k}P_{i}(\theta )=1[/math].
При проверке простой гипотезы известны как вид закона [math]F(x,\theta )[/math] так и все его параметры (известен скалярный или векторный параметр [math]θ[/math]).
В основе статистик, используемых в критериях согласия типа χ2, лежит измерение отклонений [math]n_{i}/n [/math] от [math]P_{i}(\theta )[/math].
Статистика критерия согласия χ2 Пирсона определяется соотношением
[math]X_{n}^{2}=n\sum _{i=1}^{k}{\frac {\left(n_{i}/n-P_{i}(\theta )\right)^{2}}{P_{i}(\theta )}}[/math]
В случае проверки простой гипотезы в пределе при [math]n\to \infty [/math]эта статистика подчиняется [math]\chi _{r}^{2}[/math]-распределению с [math]r=k-1[/math]степенями свободы, если верна проверяемая гипотеза [math]H_{0}[/math]. Плотность [math]\chi _{r}^{2}[/math]-распределения, которое является частным случаем гамма-распределения, описывается формулой
[math]g(s)={\frac {1}{2^{r/2}\Gamma (r/2)}}s^{r/2-1}e^{-s/2}[/math].
Проверяемая гипотеза [math]H_{0}[/math] отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики [math]X_{n}^{2*}[/math] больше критического значения [math]\chi _{r,\alpha }^{2}[/math] , или достигнутый уровень значимости (p-value)
[math]P\left(X_{n}^{2} \gt X_{n}^{2*}\right)={\frac {1}{2^{r/2}\Gamma (r/2)}}\int _{X_{n}^{2*}}^{\infty }s^{r/2-1}e^{-s/2}ds[/math]
меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода) [math]\alpha [/math].

2 Программная реализация алгоритма

3 Литература

1. Пагурова В.И. Моделирование экстремальных событий и смежных вопросов
2. Кендалл М., Стьюарт А. Статистические выводы и связи