Метод Хаусхолдера (отражений) QR-разложения квадратной матрицы, вещественный точечный вариант

QR-разложение методом Хаусхолдера (отражений)
Последовательный алгоритм
Последовательная сложность	$\frac{4 n^3}{3}$
Объём входных данных	$n^2$
Объём выходных данных	$n(n + 1)$
Параллельный алгоритм
Высота ярусно-параллельной формы	$n^2$
Ширина ярусно-параллельной формы	$n^2$

Основные авторы описания: А.В.Фролов

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Метод Хаусхолдера (в советской математической литературе чаще называется методом отражений) используется для разложения матриц в виде $A=QR$ ( $Q$ - унитарная, $R$ — правая треугольная матрица)^[1]. При этом матрица $Q$ хранится и используется не в своём явном виде, а в виде произведения матриц отражения^[2]. Каждая из матриц отражения может быть определена одним вектором. Это позволяет в классическом исполнении метода отражений хранить результаты разложения на месте матрицы A с использованием минимального одномерного дополнительного массива.

В данной статье рассматривается именно классическое исполнение, в котором не используются приёмы типа сдваивания при вычислениях скалярных произведений.

1.2 Математическое описание алгоритма

В методе Хаусхолдера для выполнения $QR$ -разложения матрицы используются умножения слева её текущих модификаций на матрицы Хаусхолдера (отражений).

Матрица отражений (Хаусхолдера) - матрица вида $U=E-2ww^*$ , где $w$ - вектор, удовлетворяющий равенству $w^{*}w=1$ . Является одновременно унитарной ( $U^{*}U=E$ ) и эрмитовой ( $U^{*}=U$ ), поэтому обратна самой себе ( $U^{-1}=U$ ).

На $i$ -м шаге метода с помощью преобразования отражения "убираются" ненулевые поддиагональные элементы в $i$ -м столбце. Таким образом, после $n-1$ шагов преобразований получается матрица $R$ из $QR$ -разложения.

На каждом из шагов метода матрицу отражений обычно представляют не в стандартном виде, а в виде $U=E-\frac{1}{\gamma}vv^*$ , где $v$ находится через координаты текущего $i$ -го столбца так:

$s$ - вектор размерности $n+1-i$ , составленный из элементов $i$ -го столбца, начиная с $i$ -го.

Если $(s,s)=0$ , то $v=e_{i}$ , $\gamma = \frac{1}{2}$ .

В остальных случаях по алгоритму вычисляется $u = \frac{1}{\sqrt{(s,s)}}s$ , и далее $v_{j}=0$ при $j \lt i$ , $v_{j}=u_{j-i+1}$ при $j \gt i$ , а $v_{i}=1$ , если $u_{1}=0$ и $v_{i}=\frac{u_{1}}{|u_{1}|}(1+|u_{1}|)$ для остальных значений. При этом $\gamma =1+|u_{1}|=|v_{i}|$ .

После вычисления вектора $v$ подстолбцы справа от ведущего модифицируются по формулам $x'=x-\frac{(x,v)}{\gamma}v$ .

1.3 Вычислительное ядро алгоритма

Основную часть алгоритма составляют вычисления на каждом шагу скалярных произведений $(s,s)$ и $(x,v)$ для всех подстолбцов $x$ справа от текущего, а также векторные операции $x'=x-\frac{(x,v)}{\gamma}v$ . Это используется при программировании метода во многих библиотеках для его конструирования из стандартных подпрограмм (например, из BLAS).

1.4 Макроструктура алгоритма

Рисунок 1. Граф шага (обнуление

$i$ го столбца) алгоритма. Фиолетовые квадратики - входные данные шага (берутся с предыдущего или, в случае первого шага, из входных данных), кружки - операции. Зелёным выделены операции типа a+bb, салатовым и светло-бежевым - типа a+bc, красным - вычисление

$\gamma , v_{1}$ , тёмно-синим - вычисления

$(x,v)$ , тёмно-бежевым - умножения (или деления). Обведённая группа операций повторяется независимо n-i раз. Результаты красного, синих и тёмно-бежевых кружков, а на последнем шаге и светло-бежевого - выходные для алгоритма.

Как уже сказано в описании ядра, основная часть - вычисления на каждом шагу скалярных произведений $(s,s)$ и $(x,v)$ для всех подстолбцов $x$ справа от текущего, а также векторные операции $x'=x-\frac{(x,v)}{\gamma}v$ . При этом, однако, строгая последовательность выполнения этих трёх подшагов не обязательна, в силу связи получаемых векторов $s$ и $v$ можно одновременно с $(s,s)$ вычислять и произведения $(x,s)$ с последующим выражением через них $(x,v)$ . Это позволяет почти вдвое уменьшать критический путь графа алгоритма.

1.5 Схема реализации последовательного алгоритма

Последовательность выполнения алгоритма обычно записывается как последовательное "обнуление" поддиагональных элементов столбцов, начиная с 1-го столбца и заканчивая предпоследним $(n-1)$ -м.

При этом в каждом "обнуляемом" $i$ -м столбце "обнуляются" сразу все его поддиагональные элементы одновременно, с $(i+1)$ -го до $n$ -го.

Каждое "обнуление" $i$ -го столбца состоит из двух шагов: а) вычисление параметров матрицы отражения $U_{i}$ такой, чтобы при умножении на неё слева "обнулились" все поддиагональные его элементы; б) умножение слева матрицы отражения $U_{i}$ на текущую версию матрицы.

1.6 Последовательная сложность алгоритма

В последовательной версии основная сложность алгоритма определяется прежде всего вычислениями скалярных произведений векторов, а также модификаций векторов вида $x'=x-\alpha v$ , причем над векторами убывающей по ходу алгоритма размерности. Они, если не учитывать возможную разреженность, составляют (в главном члене) по $2n^3/3$ операций действительного умножения и сложения/вычитания.

При классификации по последовательной сложности, таким образом, метод Хаусхолдера относится к алгоритмам с кубической сложностью.

1.7 Информационный граф

На Рисунке 1 приведён шаг графа алгоритма метода Хаусхолдера в наиболее его быстром (с параллельной точки зрения) варианте, использующем то, что с точностью до множителя ведущий вектор матрицы отражения отличается отличается от подстолбца, где выполняется очередное исключение, только одним элементом. Операции привязаны к обрабатываемым элементам матрицы. Для получения полного графа графы шагов нужно положить друг на друга последовательными слоями, при этом правые нижние углы должны быть друг над другом.

1.8 Ресурс параллелизма алгоритма

Для понимания ресурса параллелизма в разложении матрицы порядка $n$ методом Хаусхолдера нужно рассмотреть критический путь графа.

Как видно из описания разных вершин, вычисления при "обнулении" $i$ -го столбца параметров отражения и скалярных произведений состоят из основной части - ветви длиной по $n-i$ умножений и сложений - и коррекции вычислений, которые составляют $O(1)$ операций.

Поэтому по грубой (без членов низших порядков) оценке критический путь метода Хаусхолдера будет идти через $\frac{n^2}{2}$ умножений и $\frac{n^2}{2}$ сложений/вычитаний.

Поэтому в параллельном варианте, как и в последовательном, основную долю требуемого для выполнения алгоритма времени будут определять операции вида $a+bc$ .

При классификации по высоте ЯПФ, таким образом, метод Хаусхолдера относится к алгоритмам с квадратичной сложностью. При классификации по ширине ЯПФ его сложность будет также квадратичной (без расширения ряда ярусов, связанных с векторными операциями сложения, пришлось бы увеличить вдвое длину критического пути; при таком расширении сложность по ширине ЯПФ станет линейной).

Надо сказать, что здесь в оценках речь идёт именно о классическом способе реализации метода Хаусхолдера. Даже использование схем сдваивания или последовательно-параллельных для вычисления скалярных произведений уменьшает критический путь с квадратичного до степени 3/2 или линейно-логарифмического. Однако все эти широко распространённые методы пока не дали возможности снизить критический путь метода Хаусхолдера до линейного (как, скажем, у метода Гивенса).

1.9 Входные и выходные данные алгоритма

Входные данные: плотная квадратная матрица $A$ (элементы $a_{ij}$ ).

Объём входных данных: $n^2$ .

Выходные данные: правая треугольная матрица $R$ (ненулевые элементы $r_{ij}$ в последовательном варианте хранятся в элементах исходной матрицы $a_{ij}$ ), унитарная (ортогональная) матрица Q - как произведение матриц Хаусхолдера (отражения) (их вектора нормалей к плоскостям отражения в последовательном варианте хранятся в поддиагональных элементах исходной матрицы $a_{ij}$ и в одном дополнительном столбце размерности n).

Объём выходных данных: $n^2+n$ .

1.10 Свойства алгоритма

Соотношение последовательной и параллельной сложности, как хорошо видно, является линейным, что даёт определённый стимул для распараллеливания. Однако у наискорейшей ЯПФ ширина квадратична, что указывает на дисбаланс между загруженностями устройств при попытке её реально запрограммировать. Поэтому более практично даже при хорошей (быстрой) вычислительной сети оставить количество устройств (например, узлов кластера) линейным по размеру матрицы, что удвоит критический путь реализуемой ЯПФ.

При этом вычислительная мощность алгоритма, как отношение числа операций к суммарному объему входных и выходных данных, линейна.

Алгоритм в рамках выбранной версии полностью детерминирован.

Вычислительная погрешность в методе отражений (Хаусхолдера) растет линейно, как и в методе Гивенса (вращений).

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

В варианте с кратчайшим критическим путём графа алгоритма (с использованием зависимости между обнуляемым вектором и направляющим вектором отражения) метод Хаусхолдера (отражений) QR-разложения квадратной вещественной матрицы на Фортране 77 можно записать так:

	DO  I = 1, N-1
            DO K = I, N
              SX(K)=A(N,I)*A(N,K)
            END DO
            DO J = N-1, I, -1
               DO K = I, N
                  SX(K)=SX(K)+A(J,I)*A(J,K)
               END DO
            END DO

               ALPHA = SQRT (SX(I))
               IF (A(I,I).NE.0.) THEN
                  BETA = 1./ALPHA
                  DO J = I+1, N
                    A(J,I)=A(J,I)*BETA
                  END DO
                  SX(I) = A(I,I)*BETA+SIGN(1.,A(I,I))                     
                  A(I,I)=ALPHA
                  G=1./ABS(SX(I)) ! 1/gamma
                  DO K = I+1, N
                     SX(K)=SX(K)*BETA*G+SIGN(A(I,K),SX(I))
                     A(I,K) = A(I,K)+SX(K)*SX(I)
                     DO J = I+1, N
                       A (J,K) = A(J,K)-A(J,I)*SX(K)
                     END DO
                  END DO
               ELSE
                  IF (ALPHA.NE.0.) THEN
                     BETA = 1./ALPHA
                     DO J = I+1, N
                       A(J,I)=A(J,I)*BETA
                     END DO
                     SX(I) = -1. 
                     A(I,I)=ALPHA
                     G=1.! 1/gamma
                     DO K = I+1, N
                        SX(K)=SX(K)*BETA*G+SIGN(A(I,K),SX(I))
                        A(I,K) = A(I,K)+SX(K)*SX(I)
                        DO J = I+1, N
                          A (J,K) = A(J,K)-A(J,I)*SX(K)
                        END DO
                     END DO
                  ELSE
                     SX(I)=1
                     G=2.
                     DO K = I+1, N
                        SX(K)=2.
                        A(I,K) = A(I,K)-SX(K)
                     END DO
                  END IF
               END IF               

		
	END DO

В этом варианте R расположена в верхнем правом треугольнике массива A, направляющие вектора матриц отражений размещены в поддиагональных элементах соответствующих столбцов, а их первые элементы - в элементах массива SX.

Обычно же в последовательных версиях коэффициенты модификаций столбцов вычисляются целиком через скалярные произведения после вычислений параметров матрицы отражения. При этом схема чуть проще. Удлиняется критический путь графа, но для последовательных реализаций это неважно.

2.2 Возможные способы и особенности параллельной реализации алгоритма

Большинство пакетов от LINPACKа и LAPACKa до SCALAPACKa используют для QR-разложения матриц именно метод Хаусхолдера, правда, в различных модификациях (обычно с использованием BLAS). Существует большая подборка исследовательских работ по блочным версиям.

2.3 Результаты прогонов

2.4 Выводы для классов архитектур

В сравнении с методом Гивенса, который имеет естественное двумерное блочное разбиение на основе точечного метода, метод Хаусхолдера из-за худших характеристик локальности (наличие пучков рассылок) и меньшего количества независимых обобщённых развёрток графа не так хорош для реализаций на системах с распределённой памятью, как для систем с общей памятью. Поэтому на массово параллельных системах с распределённой памятью следует применять метод Хаусхолдера (если уж именно его нужно реализовать) не в точечной версии, а в разрабатываемых исследователями блочных вариантах. Следует отметить, что эти варианты - не блочная нарезка описанного метода, а самостоятельные методы. Особенно их применение рекомендуется в случаях с большой разрежённостью матрицы.

3 Литература

↑ В.В.Воеводин, Ю.А.Кузнецов. Матрицы и вычисления. М.: Наука, 1984.
↑ Воеводин В.В. Вычислительные основы линейной алгебры. М.: Наука, 1977.

[1] В.В.Воеводин, Ю.А.Кузнецов. Матрицы и вычисления. М.: Наука, 1984.

[VOLA-2] Воеводин В.В. Вычислительные основы линейной алгебры. М.: Наука, 1977.

[1]

[2]

Метод Хаусхолдера (отражений) QR-разложения квадратной матрицы, вещественный точечный вариант

Содержание

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

1.2 Математическое описание алгоритма

1.3 Вычислительное ядро алгоритма

1.4 Макроструктура алгоритма

1.5 Схема реализации последовательного алгоритма

1.6 Последовательная сложность алгоритма

1.7 Информационный граф

1.8 Ресурс параллелизма алгоритма

1.9 Входные и выходные данные алгоритма

1.10 Свойства алгоритма

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Возможные способы и особенности параллельной реализации алгоритма

2.3 Результаты прогонов

2.4 Выводы для классов архитектур

3 Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Хранилище файлов

Инструменты

На других языках