Участник:Eugeny/Алгоритм сравнения эмпирического распределения с теоретическим
Содержание
1 Свойства и структура алгоритма
1.1 Общее описание алгоритма
Теоретическая функция распределения в теории вероятностей — функция, характеризующая распределение случайной величины или случайного вектора; вероятность того, что случайная величина X примет значение, строго меньшее или равное х, где х — произвольное действительное число.
Эмпирическая функция распределения — это приближение теоретической функции распределения, построенное с помощью выборки из него.
Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(x) определяет вероятность события , а эмпирическая – относительную частоту этого же события.
В практической работе часто возникает необходимость определить соответствие эмпирического и теоретического распределения или двух и более эмпирических распределений между собой. Общие принципы сравнения основываются на анализе так называемой нулевой гипотезы. Согласно этой гипотезе первоначально принимается, что между эмпирическим и теоретическим распределением признака в генеральной совокупности достоверного различия нет. Статистический анализ должен привести или к отклонению нулевой гипотезы, если доказана достоверность полученных различий, или к ее сохранению, если достоверность различий не доказана, т.е. различия признаны случайными.
1.2 Математическое описание алгоритма
Процедура проверки гипотез с использованием критериев типа χ2 предусматривает группирование наблюдений. Область определения случайной величины разбивают на k непересекающихся интервалов граничными точками
x_{(0)},x_{(1)},...,x_{(k-1)},x_{(k)}
где x_{(0)} — нижняя грань области определения случайной величины; x_{(k)} — верхняя грань.
В соответствии с заданным разбиением подсчитывают число n_{i} выборочных значений, попавших в i -й интервал, и вероятности попадания в интервал
P_{i}(\theta )=F(x_{(i)},\theta )-F(x_{(i-1)},\theta ) ,
соответствующие теоретическому закону с функцией распределения F(x,\theta ).
При этом
n=\sum _{i=1}^{k}n_{I} и \sum _{i=1}^{k}P_{i}(\theta )=1.
При проверке простой гипотезы известны как вид закона F(x,\theta ) так и все его параметры (известен скалярный или векторный параметр θ).
В основе статистик, используемых в критериях согласия типа χ2, лежит измерение отклонений n_{i}/n от P_{i}(\theta ).
Статистика критерия согласия χ2 Пирсона определяется соотношением
X_{n}^{2}=n\sum _{i=1}^{k}{\frac {\left(n_{i}/n-P_{i}(\theta )\right)^{2}}{P_{i}(\theta )}}
В случае проверки простой гипотезы в пределе при n\to \infty эта статистика подчиняется \chi _{r}^{2}-распределению с r=k-1степенями свободы, если верна проверяемая гипотеза H_{0}. Плотность \chi _{r}^{2}-распределения, которое является частным случаем гамма-распределения, описывается формулой
g(s)={\frac {1}{2^{r/2}\Gamma (r/2)}}s^{r/2-1}e^{-s/2}.
Проверяемая гипотеза H_{0} отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики X_{n}^{2*} больше критического значения \chi _{r,\alpha }^{2} , или достигнутый уровень значимости (p-value)
P\left(X_{n}^{2} \gt X_{n}^{2*}\right)={\frac {1}{2^{r/2}\Gamma (r/2)}}\int _{X_{n}^{2*}}^{\infty }s^{r/2-1}e^{-s/2}ds
меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода) \alpha .
2 Программная реализация алгоритма
3 Литература
1. Пагурова В.И. Моделирование экстремальных событий и смежных вопросов
2. Кендалл М., Стьюарт А. Статистические выводы и связи