Участник:A.Freeman/Алгоритм Ланцоша для точной арифметики (без переортогонализации)
Алгоритм Ланцоша без переортогонализации | |
Последовательный алгоритм | |
Последовательная сложность | [math]O(kn^2)[/math] |
Объём входных данных | [math]\frac{n (n + 1)}{2}+1[/math] |
Объём выходных данных | [math]k + kn[/math] |
Параллельный алгоритм | |
Высота ярусно-параллельной формы | [math]O(k)[/math] |
Ширина ярусно-параллельной формы | [math]O(n^2)[/math] |
Основные авторы описания: Заспа А.Ю., Фролов А.А.
Содержание
- 1 Свойства и структура алгоритма
- 1.1 Общее описание алгоритма
- 1.2 Математическое описание алгоритма
- 1.3 Вычислительное ядро алгоритма
- 1.4 Макроструктура алгоритма
- 1.5 Схема реализации последовательного алгоритма
- 1.6 Последовательная сложность алгоритма
- 1.7 Информационный граф
- 1.8 Ресурс параллелизма алгоритма
- 1.9 Входные и выходные данные алгоритма
- 1.10 Свойства алгоритма
- 2 Программная реализация
- 2.1 Особенности реализации последовательного алгоритма
- 2.2 Локальность данных и вычислений
- 2.3 Возможные способы и особенности параллельной реализации алгоритма
- 2.4 Масштабируемость алгоритма и его реализации
- 2.5 Динамические характеристики и эффективность реализации алгоритма
- 2.6 Выводы для классов архитектур
- 2.7 Существующие реализации
1 Свойства и структура алгоритма
1.1 Общее описание алгоритма
Алгоритм Ланцоша был опубликовн физиком и математиком Корнелием Ланцощем в 1950 году. Этот метод является частным случаем алгоритма Арнольда в случае, если исходная матрица [math]A[/math] - симметрична, и был представлен как итерационный метод вычисления собственных значений симметричной матрицы. Этот метод позволяет за [math]k[/math] итераций вычислять [math]k[/math] приближений собственных значений и собственных векторов исходной матрицы. Хотя алгоритм и был эффективным в вычислительном смысле, но он на некоторое время был предан забвению из-за численной неустойчивости. Только в 1970 Ojalvo и Newman модифицировали алгоритм для использования в арифметике с плавающей точкой. Новый метод получил название алгоритма Ланцоша с полной переортогонализацией. Но эта статья про его исходную версию. На вход алгоритма подается вещественная симметричная матрица [math]A = A^{T}[/math],
- [math] A = \begin{pmatrix} a_{11} & a_{12} & a_{13} & \cdots & a_{1\ n-1} & a_{1\ n} \\ a_{12} & a_{22} & a_{23} & \cdots & a_{2\ n-1} & a_{2\ n} \\ a_{13} & a_{23} & a_{33} & \cdots & a_{3\ n-1} & a_{3\ n} \\ \vdots & \vdots & \ddots & \ddots & \ddots & \vdots \\ a_{1\ n-1} & \cdots & \cdots & a_{n-2\ n-1} & a_{n-1\ n-1} & a_{n-1\ n} \\ a_{1\ n} & \cdots & \cdots & a_{n-2\ n} & a_{n-1\ n} & a_{n\ n} \\ \end{pmatrix} [/math]
Поэтому достаточно хранить только чуть больше половины элементов исходной матрицы.
Сам алгоритм соединяет в себя метод Ланцоша построения крыловского подпространства с процедурой Релея-Ритца. На каждой итерации строится матрица [math]Q_k = [q_1, q_2, \dots, q_k][/math] размерности [math]n \times k[/math], состоящая из ортонормированных векторов Ланцоша. А в качестве приближенных собственных значений берутся числа Ритца, т.е. собственные значения симметричной трехдиагональной матрицы [math]T_k = Q^T_k A Q[/math] размерности [math]k \times k[/math].
- [math] T_k = \begin{pmatrix} \alpha_1 & \beta_1 \\ \beta_1 & \alpha_2 & \beta_2 \\ & \beta_2 & \ddots & \ddots \\ & & \ddots & \ddots & \beta_{k-1} \\ & & & \beta_{k-1} & \alpha_k \end{pmatrix} [/math]
Нахождение собственных значений и собственных векторов такой матрицы значительно проще чем их вычисление для исходной матрицы. Например, они могут быть вычислены с помощью метода «разделяй и властвуй» вычисления собственных значений и векторов симметричной трехдиагональной матрицы. В этом методе эта процедура занимает [math]O(k^3)[/math] операций, где константа оказывается на практике довольно мала.
1.2 Математическое описание алгоритма
Исходные данные: симметрическая матрица [math]A[/math], начальный вектор [math]b[/math].
Вычисляемые данные: собственные вектора матрицы [math]T_k[/math] являющиеся столбцами матрицы [math]Q_k V[/math], и матрица собственных значений [math]\Lambda[/math], где [math]V, \Lambda[/math] из спектрального разложения [math]T_k = V\Lambda V^T[/math].
Алгоритм на псевдокоде:
[math] \begin{align} q_1 = & \frac{b}{\|b\|_2},\; \beta_0 = 0,\; q_0 = 0\\ for \; & i = 1 \; to \; k \\ & z = Aq_i\\ & \alpha_i = q^T_i z\\ & z = z - \alpha_i q_i - \beta_{i-1}q_{i-1}\\ & \beta_i = \|z\|_2\\ & if \; \beta_i == 0 \; then \; break\\ & q_{i+1} = \frac{z}{\beta_i}\\ end \; & for \end{align} [/math]
Затем вычислить собственные значения и собственные вектора матрицы [math]T_k[/math]
1.3 Вычислительное ядро алгоритма
Вычислительным ядром на каждой итерации является вычисление произведения матрицы на вектор:
- [math]z = Aq_i[/math]
1.4 Макроструктура алгоритма
Макрооперациями алгоритма являются: умножение матрицы на вектор, скалярное произведение векторов, умножение вектора на число, вычисление собственных векторов и собственных значений трехдиагональной симметричной матрицы.
1.5 Схема реализации последовательного алгоритма
Последовательность исполнения метода следующая:
[math] \begin{align} 1. \, \beta_0 = & 0,\; q_0 = 0,\\ \|b\|_2 = &\sqrt{\sum\limits_{j=1}^{n} b_j^2},\\ 2. \, q_{1_{j}} = &\frac{b_{j}}{\|b\|_2}, \; j = 1,\, \dots \,, n\\ for \; i = & 1 \; to \; k \\ 3. \, z_j & = \sum\limits_{m=1}^{n} a_{jm} q_{i_m}, \; j = 1,\, \dots \,, n\\ 4. \, \alpha_i & = \sum\limits_{j=1}^{n}q_j z_j\\ 5. \, z_j & = z_j - \alpha_i q_{i_j} - \beta_{i-1}q_{i-1_j}, \, j = 1,\, \dots \,, n\\ 6. \, \beta_i & = \|z\|_2 = \sqrt{\sum\limits_{j=1}^{n} z_m^2}\\ if \; \beta_i & == 0 \; then \; break\\ 7. \, q_{i+1_j} & = \frac{z_j}{\beta_i}, \; j = 1,\, \dots \,, n\\ end \; & for \end{align} [/math]
1.6 Последовательная сложность алгоритма
Для вычисления [math]k[/math] собственных значений матрицы порядка [math]n[/math] и соответствующих им собственных векторов алгоритмом Ланцоша без переортогонализации в худшем случае требуется:
- [math] kn^2 + 4 kn + n [/math] умножений,
- [math] k + 1 [/math] вычислений квадратного корня,
- [math] n(k + 1) [/math] делений,
- [math] n + k(n^2+3n-1)[/math] сложений (вычитаний),
- нахождение собственных значений и векторов трехдиагональной симметричной матрицы размера [math] k \times k [/math].
Умножения и сложения (вычитания) составляют основную часть алгоритма.
Для нахождение собственных значений и векторов трехдиагональной симметричной матрицы эффективней всего использовать метод «разделяй и властвуй» вычисления собственных значений и векторов симметричной трехдиагональной матрицы, который требует [math] O(k^3) [/math] операций. При классификации по последовательной сложности, таким образом, метод Ланцоша без переортогонализации относится к алгоритмам с квадратичной сложностью.
1.7 Информационный граф
TBD
1.8 Ресурс параллелизма алгоритма
Алгоритм Ланцоша в параллельной форме состоит из инициализации и [math]k[/math] итераций. Инициализации состоит из следующих ярусов:
- ярус с [math]n[/math] умножений
- ярус с [math]n-1[/math] сложений
- ярус с вычислением квадратного корня
- ярус [math]n[/math] делений
Итерационная часть алгоритма состоит из следующих ярусов:
- 4 яруса умножений с количеством операций [math]n^2, n, 2n, n[/math]
- 4 яруса сложений/вычитаний с количеством операций [math]n^2-n, n-1, 2n, n-1[/math]
- ярус извлечения квадратного корня с единичным вычислением
- ярус деления, содержащий [math]n[/math] операций, может отсутствовать на последней итерации
Таким образом, в параллельном варианте основную долю времени будут занимать операции умножения и сложения. При классификации по высоте ЯПФ Алгоритм Ланцоша относитсяк алгоритмам со сложностью [math]O(k)[/math]. При классификации по ширине ЯПФ его сложность будет [math]O(n^2)[/math].
1.9 Входные и выходные данные алгоритма
Входные данные: симметричная матрица [math]A[/math] (элементы [math]a_{ij}, i \geq j[/math]), число [math]k[/math].
Объём входных данных: [math]\frac{n (n + 1)}{2} + 1[/math] (в силу симметричности достаточно хранить только диагональ и над/поддиагональные элементы, единица относится к параметру [math]k[/math]).
Выходные данные: по [math]k[/math] приближений собственных значений и собственных векторов.
Объём выходных данных: [math]k+kn[/math].
1.10 Свойства алгоритма
Соотношение последовательной и параллельной сложности в случае неограниченных ресурсов, как хорошо видно, является квадратичным: [math]\frac{kn^2}{k}[/math].
2 Программная реализация
2.1 Особенности реализации последовательного алгоритма
2.2 Локальность данных и вычислений
2.3 Возможные способы и особенности параллельной реализации алгоритма
2.4 Масштабируемость алгоритма и его реализации
2.5 Динамические характеристики и эффективность реализации алгоритма
2.6 Выводы для классов архитектур
2.7 Существующие реализации
Реализация в проекте IETL[1]
Реализация в проекте ARPACK [2]