Участник:Alexboboshko/Решение начальной задачи Коши для системы ОДУ методом Рунге-Кутта 4-го порядка: различия между версиями

Версия 21:49, 31 октября 2016

РК
Последовательный алгоритм
Последовательная сложность	$4mn$
Объём входных данных	$m + 3$
Объём выходных данных	$(m+1)n$
Параллельный алгоритм
Высота ярусно-параллельной формы	$O(m)$
Ширина ярусно-параллельной формы	$O(n)$

Авторы: Бобошко А. (1.1, 1.2, 1.9, 1.10, 2.4)), Юмакаева А. (разделы: 1.3, 1.4,1.5, 1.6, 1.7, 1.8, 2.7)

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Ме́тоды Ру́нге — Ку́тты — важное семейство численных алгоритмов решения обыкновенных дифференциальных уравнений и их систем. Данные итеративные методы явного и неявного приближённого вычисления были разработаны около 1900 года немецкими математиками К. Рунге и М. В. Куттой.

Формально, методом Рунге — Кутты является модифицированный и исправленный метод Эйлера, они представляют собой схемы второго порядка точности. Существуют стандартные схемы третьего порядка, не получившие широкого распространения.

Запишем точную формулу для получения $y_{i+1}$ :

$y_{i+1} = y_i + \int\limits_{t_i}^{t_{i+1}}f(t,y)dt$

Основная идея алгоритмов Рунге-Кутты состоит в замене функции $f(t,y)$ , которая зависит от неизвестной функции $y(t)$ , некоторым приближением. Чем точнее будет приближенное значение подынтегральной функции, тем точнее будет посчитан интеграл и точнее будет определено значение $y_{i+1}$ .

1.2 Математическое описание алгоритма

1.2.1 Общая формулировка методов

Рассматриваем задачу Коши

$\frac{du}{dt} = f(t,u), u(0)=u_0$

Введем по переменному $t$ равномерную сетку с шагом $\tau \gt 0$ , т.е. рассмотрим множество точек

$\begin{align} \omega_n = \left \{{t_n = n\tau, \ n = 0,\ 1,\ 2, \ \dots} \right \}. \end{align}$

Будем обозначать через $u(t)$ точное решение задачи Коши, а через $y_n = y(t_n)$ - приближенное решение.

Явный m-этапный метод Рунге-Кутта состоит в следующем. Пусть решение $y_n = y(t_n)$ уже известно. Задаются числовые коэффициенты $a_i, \ b_{ij},\ i = 2, 3, \dots, m,\ j = 1, 2, \dots, m-1,\ \sigma_i,\ i = 1, 2, \dots, m,$ и последовательно вычисляются функции

$\begin{array}{l} k_1 = f(t_n, y_n), \ k_2 = f(t_n+a_2\tau,\ y_n+b_{21}\tau k_1) \\ k_3 = f(t_n+a_3 \tau, \ y_n+b_{31}\tau k_1+b_{32}\tau k_2), \ \dots, \\ k_m = f(t_n+a_m \tau, \ y_n+b_{m1}\tau k_1+b_{m2}\tau k_2+\dots+b_{m,m-1}\tau k_{m-1}) \end{array}{l}$

Затем из формулы $\frac{y_{n+1}-y_n}{\tau} = \sum_{i = 1}^{m} \sigma_i k_i$ находится новое значение $y_{n+1} = y(t_{n+1})$

1.2.2 Метод Рунге-Кутта четвертого порядка для системы ДУ

Запишем задачу Коши в векторном виде

$\frac{d \bar y}{dt} = \bar f(t, \bar y); \ \bar y(t_0) = \bar y_0 = \begin{pmatrix} y_{10}\\ \vdots\\ y_{m0}\\ \end{pmatrix}$

$a \leq t \leq b$

Зададим равномерную сетку

$t_i = a + ih,\ i = 1,\dots, n,\ h = \frac{b-a}{n}$

Введём обозначения $y(x_i) = y_i$ .

$\begin{cases} \bar k_1 = h\bar f(t_i,\bar y_i)\\ \bar k_2 = h\bar f(t_i + h/2,\bar y_i + \bar k_1/2)\\ \bar k_3 = h\bar f(t_i + h/2,\bar y_i + \bar k_2/2)\\ \bar k_4 = h\bar f(t_i + h,\bar y_i + \bar k_3)\\ \bar y_{i+1} = \bar y_i + [ \bar k_1 + 2\bar k_2 + 2\bar k_3 + \bar k_4 ]/6 \\ \end{cases}$

1.3 Вычислительное ядро алгоритма

В описанной выше вычислительной схеме наиболее трудоемкой является операция расчета правых частей ОДУ при вычислении $k_i ( i = 1, \dots, 4) ,$ то есть основное внимание следует уделить распараллеливанию этой операции.

1.4 Макроструктура алгоритма

Каждая итерация алгоритма может быть представлена следующими этапами:

1. Вычисление коэффициентов $k_i , i = 1, \dots, 4 ,$

2. Вычисление следующего приближения $y_{i+1} = y_i + [k_1 + 2 k_2 + 2 k_3 + k_4 ]/6$

3. Переход на следующую итерацию или выход из цикла

1.5 Схема реализации последовательного алгоритма

Для каждого $i$ последовательно вычисляются функции $k_i \ ( i = 1, \dots, 4)$ . После этого вычисляется значение $y_{i+1}$ .

Пример программы на языке C

   #include <stdio.h>
   void main(){
      float t=0, dt = 0.05;
      float vx = 1, vy = 2;
      float x=0, y=0;
      vector U(x, y, vx, vy);
      vector k1, k2, k3, k4;
      while(U.y >= 0){
          k1 = F(U, t)*dt;
          k2 = F(U + 0.5*k1, t+0.5*dt)*dt;
          k3 = F(U + 0.5*k2, t+0.5*dt)*dt;
          k4 = F(U + k3, t+dt)*dt;
          U = U + 1/6.0 * (k1 + 2*k2 + 2*k3 + k4);
          t += dt;       
      }
   }

1.6 Последовательная сложность алгоритма

На каждой итерации алгоритма требуется 4 обращения к функции $\bar f$ , 11 умножений и 10 сложений. Так как функция $\bar f$ может быть функцией совершенно различной природы (линейная, полином или производная от элементарных функций и т.д.), то заранее оценить её сложность можно только лишь сверху какой-нибудь константой $c$ . В таком случае последовательную сложность алгоритма можно считать равной $4mnc$ , но далее для простоты расчетов примем константу $c=1$

1.7 Информационный граф

Для системы обыкновенных дифференциальных уравнений размерности $m$ явный $s$ -стадийный метод Рунге-Кутты имеет следующий вид: $\begin{cases} \bar y_{n+1} = \bar y_n + h\sum^{s}_{i=1} b_{i}k_{i}\\ \bar k_i = \bar f(x_n + c_{i}h;\bar g_i); i = \overline{1,s}\\ \bar g_i = \bar y_n + h\sum^{i-1}_{j=1}a_{ij}\bar k_j\\ \end{cases}$

Вычисление любой аппроксимации решения состоит в вычислении множества коэффициентов $k_i =(k_i1,k_i2,...,k_im), i=\overline{1,s}$ и,собственно,приближенного решения $y_{n+1}(h)$ .Для явных схем вычисление шаговых коэффициентов есть сугубо последовательный процесс. Для разработки параллельного алгоритма использовался математический аппарат графов влияния [1].

Задача распараллеливания в такой постановке сводится к отысканию максимального независимого множества вершин орграфа, причем вершинам графа сопоставляются выполняемые операции и вершины соединяются дугами тогда и только тогда, когда результат выполнения одной операции влияет на результат смежной. На рисунке выше приведен граф влияния для вычисления вектора значений $i$ -го шагового коэффициента в случае, если $m=p$ .

В общем случае для каждого шагового коэффициента $k_i , i = \overline{1, s}$ , соответственно, $l$ компонент вектора $g_i , i = \overline{1, s}$ могут быть вычислены параллельно

1) $l=m$ компонент при $m=p$ ;

2) $l=[m/p]$ компонент при $m\gt p$ .

1.8 Ресурс параллелизма алгоритма

Поскольку в описанной выше вычислительной схеме наиболее трудоемкой является операция расчета правых частей ОДУ при вычислении $k_i ( i = 1, \dots, 4)$ , то основное внимание следует уделить распараллеливанию этой операции. Здесь будет применяться подход декомпозиции уравнений системы ОДУ на подсистемы. Поэтому для инициализации рассмотрим следующую схему декомпозиции данных по имеющимся процессорным элементам с локальной памятью: на каждый $\mu$ - ПЭ (процессорный элемент) ( $\mu = 0, \dots, p-1$ ) распределяется $m/p$ дифференциальных уравнений и вектор $\bar y_0$ . Далее расчеты производятся по следующей схеме:

на каждом ПЭ одновременно вычисляются $m/p$ соответствующих компонент вектора $\bar k_1$ по формуле $[ \bar k_1 ]_{\mu} = h[ \bar f(x_i, \bar y_i) ]_{\mu}$
для обеспечения второго расчетного этапа необходимо провести сборку вектора $\bar k_1$ целиком на каждом ПЭ. Затем независимо выполняется вычисление компонент вектора $\bar k_2$ по формуле $[ \bar k_2 ]_{\mu} = h[ \bar f(x_i + h/2,\bar y_i + 1/2 \bar k_1)]_{\mu}$ ;
проводится сборка вектора $\bar k_2$ на каждом ПЭ, вычисляются компоненты вектора $\bar k_3:\ [ \bar k_3 ]_{\mu} = h [\bar f(x_i + h/2,\bar y_i + 1/2 \bar k_2)]_{\mu}$ ;
проводится сборка вектора $\bar k_3$ на каждом ПЭ, вычисляются компоненты вектора $\bar k_4:\ [ \bar k_4 ]_{\mu} = h [\bar f(x_i + h,\bar y_i + \bar k_3)]_{\mu}$ ;
рассчитываются с идеальным параллелизмом компоненты вектора $\bar y_{i+1}:\ [\bar y_{i+1}]_{\mu} = [\bar y_{i}]_{\mu} + ([ \bar k_1 ]_{\mu} + 2[ \bar k_2 ]_{\mu} + 2[ \bar k_3 ]_{\mu} + [ \bar k_4 ]_{\mu})/6\$ и производится сборка вектора $\bar y_{i+1}$ на каждом ПЭ. Если необходимо продолжить вычислительный процесс, то полагается $i = i + 1$ и осуществляется переход на п. 1

Заметим, что в данном алгоритме производится четыре операции вычисления вектора правых частей ОДУ, шестнадцать операций сложения векторов и умножения вектора на число и четыре операции глобальной сборки векторов.

1.9 Входные и выходные данные алгоритма

Вход:

$\bar y_{0} \in \mathbb{R}^m$ - начальное значение - размерность $m$
$a,\ b$ - границы отрезка - размерность 2
$n$ - число итераций - размерность 1

Итоговый объем входных данных - $m+3$

Выход:

$\bar y_{1},\dots, \bar y_n \in \mathbb{R}^m$ - $n$ $m$ -мерных векторов - размерность $nm$
$\bar x \in \mathbb{R}^n$ - размерность $n$

Итоговый объем выходных данных - $n(m+1)$

1.10 Свойства алгоритма

Методы Рунге-Кутты имеют несколько достоинств, определивших их популярность среди значительного числа исследователей.

Гибкость. Эти методы легко программируются. Также (как и все одношаговые методы) являются самостартующими и позволяют на любом этапе вычислений легко изменять шаг интегрирования.

Точность и сходимость. Если метод Рунге-Кутта аппроксимирует исходное уравнение, то он сходится при диаметре разбиения $h$ → 0, причем порядок точности совпадает с порядком аппроксимации. В случае методов 4-го порядка это значит, что ошибка на одном шаге имеет порядок $O(h^5)$ , а суммарная ошибка на конечном интервале интегрирования имеет порядок $O(h^4)$ .

Вычислительная мощность алгоритма стремится к константе, так как число операций равно $4mn$ , а суммарный объем входных и выходных данных составляет $mn + n + m + 3$ .

Увеличивая число $m$ вспомогательных точек, можно построить методы Рунге-Кутты любого порядка точности $p$ . Однако уже при $p\gt 5$ эти методы используются довольно редко. Это объясняется как чрезмерной громоздкостью получающихся вычислительных формул, так и том, что преимущества методов высокого порядка точности $p$ над методами, в которых $p=4$ и $p=5$ , проявляются либо в тех задачах, где нужна очень высокая точность и используются ЭВМ высокой разрядности, либо в тех задачах, где решение очень гладкое. Кроме того, методы Рунге-Кутты высокого порядка точности часто оказываются менее эффективными по сравнению с методами Адамса того же порядка точности.

Часто используются и более сложные в реализации неявные методы Рунге-Кутты, которые имеют ряд преимуществ перед явными методами, однако это достигается за счет существенного усложнения вычислительного алгоритма, так как на каждом шаге необходимо решать систему нелинейных уравнений.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.2.1 Локальность реализации алгоритма

2.2.1.1 Структура обращений в память и качественная оценка локальности

2.2.1.2 Количественная оценка локальности

2.2.1.3 Анализ на основе теста Apex-Map

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

2.4.1 Масштабируемость алгоритма

2.4.2 Масштабируемость реализации алгоритма

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

Стандартная схема 4-го порядка реализована в различных математических пакетах (Maple, MathCAD, Maxima), в библиотеке для языка программирования Python - SciPу, а так же в библиотеке PETSc.

3 Литература

[1] Воеводин В.В., Воеводин Вл. В. Параллельные вычисления. – СПб.: БХВ - Петербург, 2002.

[2] Тыртышников Е. Е. Методы численного анализа — М., Академия, 2007.

[3] Бахвалов Н. С., Жидков Н. П., Кобельков. Г. М. — 6-е изд. — М. : БИНОМ. Лаборатория знаний, 2008.

[4] Самарский А. А., Гулин А. В. Численные методы. М.: Наука, 1989.

[5] Амосов А.А., Дубинский Ю.А., Копченова Н.В. Вычислительные методы для инженеров: Учеб. пособие. — М.: Высш. шк., 1994. <references \>

@@ Строка 208: / Строка 208: @@
 [4] Самарский А. А., Гулин А. В. Численные методы. М.: Наука, 1989.
+[5] Амосов А.А., Дубинский Ю.А., Копченова Н.В. Вычислительные методы для инженеров: Учеб. пособие. — М.: Высш. шк., 1994.
 <references \>