Участник:Chist/Метод Ньютона: различия между версиями

Материал из Алговики
Перейти к навигации Перейти к поиску
Строка 143: Строка 143:
 
=== Масштабируемость алгоритма и его реализации ===
 
=== Масштабируемость алгоритма и его реализации ===
  
На рисунке 2 показаны результаты работы программы при нахождении корней уравнения <math>z^4 - 1 = 0</math> на сетке с <math>1024 \times 1024</math> узлами. Красным отмечено время работы параллельного участка программы (включает в себя время на пересылку данных). Для сравнения синим цветом обозначена функция <math>y(x) = 128 / x</math>. Из этого можно сделать вывод, что время работы программы обратно пропорционально числу процессоров.
+
На рисунке 2 показана зависимость времени работы программы от количества процессоров и степени многочлена (рассматривались полиномы вида <math>z^p - 1 = 0</math>).  
  
[[file:newton_scale_results.jpg|thumb|center|512px|Рисунок 2. Масштабируемость алгоритма.]]
+
[[file:Newton_scale_results_3d.jpg|thumb|center|512px|Рисунок 2. Масштабируемость алгоритма.]]
 +
 
 +
Как видно из рисунка, время выполнения пропорционально степени полинома и обратно пропорционально числу процессоров, что согласуется с теоретическими результатами. На рисунке 3 показана зависимость времени работы от числа процессоров при фиксированной степени полинома <math>p = 4</math>. Можно заметить, что в данном случае полученные результаты достаточно хорошо аппроксимируются функцией <math>y(x) = 50 / x</math>.
 +
 
 +
[[file:Newton_scale_results.jpg|thumb|center|512px|Рисунок 3. Зависимость от числа процессоров.]]
  
 
=== Динамические характеристики и эффективность реализации алгоритма ===
 
=== Динамические характеристики и эффективность реализации алгоритма ===

Версия 14:35, 20 ноября 2017

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Метод Ньютона, алгоритм Ньютона (также известный как метод касательных) — это итерационный численный метод нахождения корня заданной функции. Метод был впервые предложен английским физиком, математиком и астрономом Исааком Ньютоном (1643—1727). Поиск решения осуществляется путём построения последовательных приближений и основан на принципах простой итерации. Метод обладает квадратичной сходимостью. Модификацией метода является метод хорд и касательных. Также метод Ньютона может быть использован для решения задач оптимизации, в которых требуется определить нуль первой производной либо градиента в случае многомерного пространства.

Поскольку функция может иметь несколько корней, чтобы попытаться найти их все, необходимо провести перебор начальных приближений. При нас интересуют не только действительные корни, но и комплексные, будет производить перебор по некоторой сетке на комплексной плоскости.

1.2 Математическое описание алгоритма

Пусть задана некоторая функция \ f(x) , её производная \ f'(x) и сетка на комплексной плоскости вида

z_0 = \left( x_0 + \alpha \dfrac{x_1 - x_0}{N} \right) + i \cdot \left( y_0 + \beta \dfrac{y_1 - y_0}{M} \right), \qquad \alpha = \overline{1, N},\ \beta = \overline{1, M},

где \ i — мнимая единица.

Получим решения уравнения \ f(z) = 0 с помощью итерационного процесса, определяемого формулой:

z_{k+1} = z_k - \dfrac{f(z_k)}{f'(z_k)},

где в качестве начального приближения \ z_0 перебираются всевозможные точки рассмотренной сетки.

1.2.1 Теоретическое обоснование

Пусть \ F(x) — оператор, отображающий линейное нормированное пространство H на линейное нормированное пространство Y. Линейный оператор P, действующий из пространства H в пространство Y, назовём производной оператора F(x) в точке x, если

\| F(x + \eta) − F(x) − P\eta \|_Y = o(\| \eta \|_H).

Будем обозначать такой оператор P как F′(x).

Пусть \ X — решение уравнения F(X) = 0, \ \Omega_a = \{ x: \| x - X \| \lt a \}. Пусть также при некоторых a \gt 0,\ a_1 \ge 0,\ a_2 \le \infty выполнены условия:

\label{requirement_one} \| (F'(X))^{-1} \|_{Y} \le a_1 \text{ при } x \in \Omega_a,
\| F(u_1) - F(u_2) - F'(u_2)(u_1 - u_2) \|_{Y} \le a_2 \|u_2 - u_1 \|_{H}^{2} \text{ при } u_1, u_2 \in \Omega_a.

Обозначим c = a_1 a_2, b = \min \{a, c^{-1}\}.

Метод Ньютона применим на основании следующей теоремы:

Теорема. Если выполнены указанные условия и начальное приближение x_0 принадлежит \Omega_b, то итерационный процесс Ньютона

x_{n + 1} = x_{n} - (F'(x_n))^{-1} F(x_n)

сходится с оценкой погрешности

\| x_n - X \|_{H} \le c^{-1} \left( c \| x_0 - X \|_{H} \right)^{2^n}.

Доказательство этой теоремы можно найти в литературе[1].

1.3 Вычислительное ядро алгоритма

Вычислительную сложность алгоритма представляют операции вычисления значения функций в заданной точке, а так же операции вычитания и деления. При этом итерационный процесс запускается N \cdot M раз, а количество итераций в каждом процессе, вообще говоря, не определено; наиболее популярными условиями останова являются следующие:

\| z_{n + 1} - z_{n} \| \lt \varepsilon,
| f(z_{n}) | \lt \varepsilon.

Однако, для верхней оценки числа операций удобно зафиксировать число итераций в каждом процессе. Это так же позволит завершить вычисления в случае, если итерационный процесс не сходится.

1.4 Макроструктура алгоритма

Для обеспечения параллелизма сперва исходная сетка разбивается на n по возможности равных участков (например, на полосы длины M) — запускается n процессов. В каждом участке последовательно запускаются итерационные процессы для каждого узла сетки, в ходе которых:

  • 1. вычисляются значения функций \ f(z_k), \ f'(z_k) (предполагается, что функции заданы аналитически);
  • 2. вычисляется следующая точка:
z_{k+1} = z_k - \dfrac{f(z_k)}{f'(z_k)};
  • 3. если условие останова не выполнено, переходим к шагу 1.

Поскольку полученные в каждом процессе результаты необходимо обработать (проверить, являются ли полученные числа корнями; также желательно оставить только уникальные решения), нужно переслать полученные данные в какой-то один процесс. Проверку корней можно осуществлять на том процессоре, где они были получены, но это вызовет дополнительные сложности при работе с памятью во время последующей пересылки.

1.5 Схема реализации последовательного алгоритма

Последовательный алгоритм является частным случаем описанного алгоритма при n = 1. При этом не возникает затрат на пересылку информации о найденных корнях к одному процессу, что позволяет более эффективно работать с памятью.

1.6 Последовательная сложность алгоритма

Для определения сложности алгоритма, необходимо выбрать класс функций, для которого будет написана программа (предполагается, что функции \ f(x) , \ f'(x) заданы аналитически). Проведём исследование для многочленов степени p, каждый из которых определяется вектором из p + 1 коэффициентов. Пусть выбран критерий останова, при котором каждое использование метода Ньютона включает в себя iter\_num операций.

Основную вычислительную сложность представляют собой операции умножения и деления комплексных чисел с плавающей точкой, будем считать их суммарное количество. Однако, необходимо помнить, что операции над комплексными числами требуют больше ресурсов, чем операции над действительными числами.

Для вычисления значения многочлена степени p в точке с помощью тривиального алгоритма необходимо \frac{p(p+1)}{2} + p операций умножения. Воспользовавшись схемой Горнера, можно сократить число умножений до p:

P(x) = ( \ldots (a_p x + a_{p-1}) x + a_{p-2})x + \ldots + a_1)x + a_0.

В каждой итерации метода нужно вычислить не только значение многочлена в точке, но и значение его производной в этой точке. Это добавляет ещё p - 1 операцию. Наконец, в каждой итерации производится ровно одно деление.

Учитывая количество узлов сетки и заданное количество итераций, получим общее число операций умножения деления:

p + N \cdot M \cdot iter\_num \cdot (p + (p - 1) + 1) = p + 2 \cdot N \cdot M \cdot iter\_num \cdot p,

где первое слагаемое соответствует числу операций для вычисления коэффициентов производной многочлена.

1.7 Информационный граф

Пересылка данных происходит от каждого процесса к первому. При этом в первом процессе так же происходят вычисления, поэтому может возникнуть задержка при пересылке данных, если вычисления в первом процессе ещё не завершены. Однако выделять под обработку пересланных данных отдельный процесс нерационально: в таком случае на нём будет застой во время вычислений на всех остальных процессах.

Рисунок 1. Граф алгоритма.

При этом первый процесс не пересылает свои данные к себе (в привычном понимании пересылки), а просто сохраняет полученные результаты в отдельный массив.

1.8 Ресурс параллелизма алгоритма

Алгоритм является строго последовательным, однако существует возможность распараллеливания благодаря перебору. Таким образом сложность алгоритма равна O(\frac{N \cdot M}{n}).

1.9 Входные и выходные данные алгоритма

Входные данные:

  • p + 1 действительное число — коэффициенты многочлена.
  • Действительные числа x_0, y_0, x_1, y_1, определяющие левый нижний (x_0, y_0) и правый верхний (x_1, y_1) узлы прямоугольной сетки.
  • Натуральные числа M и N, задающие количество узлов сетки по горизонтали и вертикали
  • Натуральное число iter\_num, равное количеству итераций при каждом запуске метода Ньютона

Выходные данные:

  • список всех найденных комплексных чисел z, удовлетворяющих условию |f(z)| \lt \varepsilon.

1.10 Свойства алгоритма

Как хорошо видно, соотношение последовательной и параллельной сложности является линейным.

При этом вычислительная мощность алгоритма, как отношение числа операций к суммарному объему входных и выходных данных, так же является линейной.

Очевидно, что алгоритм является детерминированным.

Как уже было замечено, могут возникнуть задержки в связи с пересылкой данных от каждого процесса к первому. Это связано не только с тем, что в первом процессе так же происходят вычисления, но и с тем, что несколько процессов могут отправить запросы на пересылку одновременно. В результате может возникнуть неоптимальное использование мощностей.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

Основная идея параллелизма заключается в разбиении сетки на n участков. Идеи параллелизма можно также применять при вычислении значения многочлена в точке, однако это становится нерациональным при использовании схемы Горнера. Стоит отметить, что, за исключением перебора по сетке, в алгоритме нет каких-либо циклов.

2.4 Масштабируемость алгоритма и его реализации

На рисунке 2 показана зависимость времени работы программы от количества процессоров и степени многочлена (рассматривались полиномы вида z^p - 1 = 0).

Рисунок 2. Масштабируемость алгоритма.

Как видно из рисунка, время выполнения пропорционально степени полинома и обратно пропорционально числу процессоров, что согласуется с теоретическими результатами. На рисунке 3 показана зависимость времени работы от числа процессоров при фиксированной степени полинома p = 4. Можно заметить, что в данном случае полученные результаты достаточно хорошо аппроксимируются функцией y(x) = 50 / x.

Рисунок 3. Зависимость от числа процессоров.

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

  • Последовательные реализации
    • ALIAS C++. Язык реализации — C++. Распространяется бесплатно, исходные коды и примеры использования можно скачать на сайте[2].
    • Numerical Recipes. Язык реализации — C++. Исходный код можно найти в книге "Numerical recipes" [3]. Бесплатно доступны[4] предыдущие издания для языков C, Fortran77, Fortran90.
    • Numerical Mathematics — NewtonLib. Язык реализации - C, Fortran. Исходные коды доступны[5] в качестве приложения к книге[6] Peter Deuflhards "Newton Methods for Nonlinear Problems — Affine Invariance and Adaptive Algorithms".
  • Параллельные реализации
    • Sundials. Язык реализации — C, также есть интерфейс для использования в Fortran-программах. Распространяется[7] по лицензии BSD.
    • PETSc. Язык реализации — C, есть интерфейс для Java и Python. Распространяется [8] по лицензии BSD.

3 Литература

<references \>