Метод сдваивания Стоуна для решения двудиагональных СЛАУ

Метод сдваивания Стоуна для решения двудиагональных СЛАУ
Последовательный алгоритм
Последовательная сложность	$3(n-1)(\lceil \log_2 (n-1) \rceil+2)$
Объём входных данных	$4n-2$
Объём выходных данных	$n$
Параллельный алгоритм
Высота ярусно-параллельной формы	$4 \lceil \log_2 (n-1) \rceil + 5$
Ширина ярусно-параллельной формы	$n$

Основные авторы описания: А.В.Фролов.

1 Свойства и структура алгоритмов

1.1 Общее описание алгоритма

Алгоритм сдваивания Стоуна для решения двудиагональных СЛАУ - часть метода сдваивания Стоуна для решения СЛАУ^[1]^[2] вида $Ax = b$ , где

$A = \begin{bmatrix} a_{11} & a_{12} & 0 & \cdots & \cdots & 0 \\ a_{21} & a_{22} & a_{23}& \cdots & \cdots & 0 \\ 0 & a_{32} & a_{33} & \cdots & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \ddots & 0 \\ 0 & \cdots & \cdots & a_{n-1 n-2} & a_{n-1 n-1} & a_{n-1 n} \\ 0 & \cdots & \cdots & 0 & a_{n n-1} & a_{n n} \\ \end{bmatrix}, x = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \\ \end{bmatrix}, b = \begin{bmatrix} b_{1} \\ b_{2} \\ \vdots \\ b_{n} \\ \end{bmatrix}$

Метод сдваивания Стоуна впервые предложен в начале 70-х гг. 20го века^[3] в качестве альтернативы другим параллельным алгоритмам решения трёхдиагональных СЛАУ, например, методу циклической редукции.

Здесь рассматривается его вторая часть - решение двух двудиагональных СЛАУ. Оно использует представление матрицы

$A = \begin{bmatrix} a_{11} & a_{12} & 0 & \cdots & \cdots & 0 \\ a_{21} & a_{22} & a_{23}& \cdots & \cdots & 0 \\ 0 & a_{32} & a_{33} & \cdots & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \ddots & 0 \\ 0 & \cdots & \cdots & a_{n-1 n-2} & a_{n-1 n-1} & a_{n-1 n} \\ 0 & \cdots & \cdots & 0 & a_{n n-1} & a_{n n} \\ \end{bmatrix}$

в виде произведения матриц

$L = \begin{bmatrix} 1 & 0 & 0 & \cdots & \cdots & 0 \\ l_{21} & 1 & 0 & \cdots & \cdots & 0 \\ 0 & l_{32} & 1 & \cdots & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \ddots & 0 \\ 0 & \cdots & \cdots & l_{n-1 n-2} & 1 & 0 \\ 0 & \cdots & \cdots & 0 & l_{n n-1} & 1 \\ \end{bmatrix}$

и

$U = \begin{bmatrix} u_{11} & u_{12} & 0 & \cdots & \cdots & 0 \\ 0 & u_{22} & u_{23}& \cdots & \cdots & 0 \\ 0 & 0 & u_{33} & \cdots & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \ddots & 0 \\ 0 & \cdots & \cdots & 0 & u_{n-1 n-1} & u_{n-1 n} \\ 0 & \cdots & \cdots & 0 & 0 & u_{n n} \\ \end{bmatrix}$

Важным моментом является то, что алгоритм Стоуна использует то же самое разложение, что вычисляется не только в первой части метода (алгоритме сдваивания Стоуна для LU-разложения трёхдиагональной матрицы), но и в устойчивой компактной схеме метода Гаусса.

При уже полученном разложении матрицы решение СЛАУ $Ax = b$ можно поменять на последовательное решение двух СЛАУ $Ly = b$ и затем $Ux = y$ . При этом вторую СЛАУ тоже можно решить как последовательность СЛАУ $Dz = y$ и $D^{-1}Ux = z$ , где $D$ - диагональная матрица, составленная из диагональных элементов матрицы $U$ .

1.2 Математическое описание алгоритма

Метод Стоуна в части решения двухдиагональных СЛАУ $Ly = b$ и $D^{-1}Ux = z$ , полученных при решении исходной $Ax = b$ после вычисления разложения $A = LU$ , заключается в том, что получающиеся при их непосредственном решении рекурсивные зависимости

Рисунок 1. Граф вычисления матриц

$K_{i}$ при

$n=9$ . Каждая вершина соответствует составной операции, состоящей из одного умножения и одной операции

$a+bc$ . В чёрных вершинах вычисляются используемые результаты (

$s_{i}$ и

$t_{i}$ ), в светлых - промежуточные

Рисунок 2. Граф вычисления матриц

$R_{i}$ при

$n=9$ . Каждая вершина соответствует составной операции, состоящей из одного умножения и одной операции

$a+bc$ . В чёрных вершинах вычисляются используемые результаты (

$v_{i}$ и

$w_{i}$ ), в светлых - промежуточные

$y_1 = b_1$ , и потом $y_{i} = b_{i} - l_{i i-1} y_{i-1}, i = 2,..., n$

и

$x_n = z_n$ , и потом $x_{i} = z_{i} - \frac{u_{i i+1}}{u_{ii}} x_{i+1}, i = n-1,...,1$

заменяются соответственно на

$\begin{bmatrix} y_i \\ 1 \\ \end{bmatrix} = \begin{bmatrix} l_{i i-1} & b_{i} \\ 0 & 1 \\ \end{bmatrix} \begin{bmatrix} y_{i-1} \\ 1 \\ \end{bmatrix} = P_{i} \begin{bmatrix} y_{i-1} \\ 1 \\ \end{bmatrix}, i = 2,..., n$ , где

$P_{i} = \begin{bmatrix} l_{i i-1} & b_{i} \\ 0 & 1 \\ \end{bmatrix}$

и

$\begin{bmatrix} x_i \\ 1 \\ \end{bmatrix} = \begin{bmatrix} \frac{u_{i i+1}}{u_{ii}} & z_{i} \\ 0 & 1 \\ \end{bmatrix} \begin{bmatrix} x_{i+1} \\ 1 \\ \end{bmatrix} = C_{i} \begin{bmatrix} x_{i+1} \\ 1 \\ \end{bmatrix}, i = n-1,...,1$ , где

$C_{i} = \begin{bmatrix} \frac{u_{i i+1}}{u_{ii}} & z_{i} \\ 0 & 1 \\ \end{bmatrix}$

и после выполнения подстановок оказывается, что

$\begin{bmatrix} y_i \\ 1 \\ \end{bmatrix} = P_{i} P_{i-1} ... P_{2} \begin{bmatrix} b_{1} \\ 1 \\ \end{bmatrix}, i = 2,..., n$ ,

$\begin{bmatrix} x_i \\ 1 \\ \end{bmatrix} = C_{i} C_{i+1} ... C_{n-1} \begin{bmatrix} z_{n} \\ 1 \\ \end{bmatrix}, i = 1,...,n-1$

после чего оказывается, что с использованием ассоциативности умножения матриц все эти произведения могут быть выполнены по схеме сдваивания, что и делает алгоритм Стоуна, вычисляя по ней матрицы

$K_{i} = \begin{bmatrix} s_{i} & t_{i} \\ 0 & 1 \\ \end{bmatrix} = P_{i} P_{n-1} ... P_{2} , i = 2,..., n$

После этого вычисляются промежуточные результаты

$z_i = \frac{s_{i}b_{1}+t_{i}}{u_{ii}}, i = 2,..., n$ ,

и снова по схеме сдваивания матрицы

$R_{i} = \begin{bmatrix} v_{i} & w_{i} \\ 0 & 1 \\ \end{bmatrix} = C_{i} C_{i+1} ... C_{n-1} , i = 1,...,n-1$ .

После чего окончательно вычисляются

$x_n = z_n$ ,

$x_i = v_{i}z_{n}+w_{i}, i = 1,...,n-1$ .

1.3 Вычислительное ядро алгоритма

Основную часть вычислительного ядра алгоритма составляют операции трёх типов: деление, умножение и операция типа $a+bc$ .

1.4 Макроструктура алгоритма

На макроуровне можно выделить такие 4 макрооперации: вычисление сдваиванием матриц $K_{i}$ , вычисление элементов матриц $C_i$ , вычисление сдваиванием матриц $R_{i}$ , вычисление результатов.

1.5 Схема реализации последовательного алгоритма

Метод Стоуна изначально спроектирован для параллельного исполнения, поскольку является по отношению к, например, классической прогонке, алгоритмом с избыточными вычислениями. Вторая часть метода - для решения двухдиагональных СЛАУ - также содержит избыточные вычисления в сравнении с методами подстановки для их решения.

1.6 Последовательная сложность алгоритма

Для полного выполнения алгоритма Стоуна и решения двух двухдиагональных СЛАУ нужно выполнить (если не используются предвычисления обратных элементов):

$2n-2$ делений,
$2(n-1)(\lceil \log_2 (n-1) \rceil+1)$ умножений,
$(n-1)(\lceil \log_2 (n-1) \rceil+2)$ сложений.

Поэтому алгоритм должен быть отнесён к алгоритмам линейно-логарифмической сложности по количеству последовательных операций.

1.7 Информационный граф

Как уже отмечено, макроструктура алгоритма состоит из 4 частей.

В первой части производится вычисление сдваиванием матриц $K_{i}$ . Граф этой части показан на Рисунке 1.

Во второй части происходит вычисление элементов матриц $C_i$ . При этом внедиагональные элементы ( $z_i$ ) вычисляются с использованием результатов первой части, а вот диагональные (частные $\frac{u_{i i+1}}{u_{ii}}$ ) можно вычислить заранее, одновременно с 1й частью.

В третьей части - вычисление сдваиванием матриц $R_{i}$ , оно показано на рисунке 2 и использует результаты 2й части.

В четвёртой, последней, части - вычисление результатов, с использованием результатов 2й части.

Внутренние графы 2й и 4й частей - пусты, их операции в зависимости только с другими частями.

1.8 Ресурс параллелизма алгоритма

На критическом пути алгоритма Стоуна решения двух двухдиагональных СЛАУ нужно выполнить (если не используются предвычисления обратных элементов):

$1$ ярус делений,
$2(\lceil \log_2 (n-1) \rceil+2)$ ярусов умножений,
$2(\lceil \log_2 (n-1) \rceil+2)$ ярусов сложений.

Поэтому алгоритм должен быть отнесён к алгоритмам логарифмической сложности по количеству последовательных операций. Ширина яруса равна $n$ , поэтому алгоритм должен быть отнесён к алгоритмам линейной сложности по ширине ярусов.

1.9 Входные и выходные данные алгоритма

Входные данные: двудиагональные матрицы $L$ (с единичной диагональю) (элементы $l_{ij}$ ) и $U$ (элементы $u_{ij}$ ), вектор $b$ (элементы $b_{i}$ ).

Объём входных данных: $4n-2$ .

Выходные данные: вектор $x$ (элементы $x_{i}$ ).

Объём выходных данных: $n$ .

1.10 Свойства алгоритма

Соотношение последовательной и параллельной сложности, как хорошо видно, равно $O(n)$ .

При этом вычислительная мощность алгоритма как отношение числа операций к суммарному объему входных и выходных данных является логарифмической.

Алгоритм в рамках выбранной версии полностью детерминирован.

Для решения СЛАУ с диагональным преобладанием гарантируется устойчивость алгоритма.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

Из-за большой избыточности вычислений метод Стоуна никогда не предназначался для последовательной реализации. После обнаружения неустойчивости его первой части стало ясно, что и в будущем он не будет реализован на любых, а не только на последовательных архитектурах. Вторую же часть из-за большой избыточности вычислений тоже нецелесообразно использовать на последовательных компьютерах, где используют, в основном, прогонки разных версий.

2.2 Возможные способы и особенности параллельной реализации алгоритма

В принципе, если взять блочно-двухдиагональный вариант разложения, то, поскольку вес макровершин будет расти больше, чем вес обменов, структуру метода Стоуна вполне можно реализовать с малым временем простоев, но ограничение реальной эффективности обратным двоичным логарифмом делает эти попытки не вполне осмысленными. Видимо, поэтому его и не применяют - ни в точечной формулировке, ни в блочной.

Как видно по графу алгоритма, ряд дуг длинны как по времени (по различию номеров ярусов операций, являющихся началом и концом дуги), так и по пространству (исключением является только размещение в гиперкубе, физически невозможное). Эта неустранимая нелокальность должна тормозить исполнение алгоритма. Реальное же исследование последовательного кода на обращения в память проводить бессмысленно, поскольку последовательный код не применяется и не будет применяться никем.

При оценке масштабируемости этого алгоритма, как и всех алгоритмов с избыточными вычислениями, следует учитывать, что сравнение по быстродействию и эффективности нужно проводить не с однопроцессорным вариантом исполнения самого алгоритма, а с алгоритмом последовательного решения двух двудиагональных СЛАУ. Избыточность порядка двоичного логарифма приводит к тому, что реальная эффективность будет уже с размером порядка миллиона примерно 5% от эффективности, достигаемой программистскими ухищрениями, а с дальнейшим ростом процент будет ещё падать. Это соображение ставит крест на попытки эффективно реализовать и масштабировать метод Стоуна.

Из-за большой избыточности вычислений, даже несмотря на устойчивость этой части метода Стоуна, реальная эффективность была бы очень низка. Поэтому его реализации в настоящее время недоступны, и динамические характеристики отсутствуют.

Из-за неустойчивости первой части метода его не используют на практике, поэтому планировавшаяся в исходной публикации^[3] замена более популярной циклической редукции не удалась. Реализаций схемы Стоуна отсутствуют в пакетах программ, даже в её второй (устойчивой) части.

2.3 Результаты прогонов

2.4 Выводы для классов архитектур

Даже если говорить только о второй части схемы Стоуна, являющейся устойчивой, реальное её использование на любых параллельных архитектурах из-за большой избыточности алгоритма даст очень низкую реальную эффективность. При этом, в отличие от той же циклической редукции, где реальная эффективность того же порядка, из-за большого числа избыточных операций в схеме Стоуна на той же вычислительной системе будет гораздо больше энергопотребление. Поэтому если даже мы имеем полное разложение трёхдиагональной матрицы в произведение двух двудиагональных, вместо схемы Стоуна логичнее для распараллеливания взять алгоритм с существенно большей эффективностью, например последовательно-параллельную схему.

3 Литература

↑ Воеводин В.В. Вычислительные основы линейной алгебры. М.: Наука, 1977.
↑ Воеводин В.В., Кузнецов Ю.А. Матрицы и вычисления. М.: Наука, 1984.
↑ ^3,0 ^3,1 Stone H.S. An Efficient Parallel Algorithm for the Solution of a Tridiagonal Linear System of Equations // J. ACM, Vol. 20, No. 1 (Jan. 1973), P. 27-38.

[VOLA-1] Воеводин В.В. Вычислительные основы линейной алгебры. М.: Наука, 1977.

[MIV-2] Воеводин В.В., Кузнецов Ю.А. Матрицы и вычисления. М.: Наука, 1984.

[STONE-3] 3,0 ^3,1 Stone H.S. An Efficient Parallel Algorithm for the Solution of a Tridiagonal Linear System of Equations // J. ACM, Vol. 20, No. 1 (Jan. 1973), P. 27-38.

[1]

[2]

[3]

Метод сдваивания Стоуна для решения двудиагональных СЛАУ

Содержание

1 Свойства и структура алгоритмов

1.1 Общее описание алгоритма

1.2 Математическое описание алгоритма

1.3 Вычислительное ядро алгоритма

1.4 Макроструктура алгоритма

1.5 Схема реализации последовательного алгоритма

1.6 Последовательная сложность алгоритма

1.7 Информационный граф

1.8 Ресурс параллелизма алгоритма

1.9 Входные и выходные данные алгоритма

1.10 Свойства алгоритма

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Возможные способы и особенности параллельной реализации алгоритма

2.3 Результаты прогонов

2.4 Выводы для классов архитектур

3 Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Хранилище файлов

Инструменты

На других языках