Нахождение суммы элементов массива сдваиванием: различия между версиями

[непроверенная версия]

[досмотренная версия]

Текущая версия на 12:51, 8 июля 2022

Основные авторы описания: А.В.Фролов.

Содержание

1 Свойства и структура алгоритма
2 Программная реализация алгоритма
3 Литература

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Метод сдваивания используется в качестве быстрого варианта вычисления длинных последовательностей ассоциативных операций (например, массового суммирования). Получил распространение благодаря как наименьшей из возможных высоте алгортима, так и из-за ряда своих вычислительных характеристик, а также (в среде нечисленных алгоритмов) из-за своей рекурсивности, то есть лёгкости записи.

1.2 Математическое описание алгоритма

Исходные данные: одномерный массив [math]n[/math] чисел.

Вычисляемые данные: сумма элементов массива.

Формулы метода: элементы на каждом этапе алгоритма разбиваются на пары. В каждой из пар находится сумма составляющих её элементов. На следующем этапе на пары разбиваются уже эти суммы (и те элементы, которые не вошли в уже вычисленные суммы), и т. д.

1.3 Вычислительное ядро алгоритма

Вычислительное ядро метода сдваивания для суммирования можно составить как из элементарных бинарных (всего [math]n - 1[/math]) вычислений сумм, так и (рекуррентно) из набора реализаций метода сдваивания меньших размерностей.

1.4 Макроструктура алгоритма

Как уже записано в описании ядра алгоритма, основную часть метода составляют рекурсивные вызовы сумм массивов меньшей размерности.

1.5 Схема реализации последовательного алгоритма

В своём чистом виде суммирование сдваиванием редко используют при последовательной реализации, поскольку при этом усложняется общая схема алгоритма и резко растёт потребность в памяти, нужной для хранения промежуточных данных.

1.6 Последовательная сложность алгоритма

Для вычисления суммы массива, состоящего из [math]N[/math] элементов, при любых разложениях [math]N[/math] на пары суть алгоритма сводится к простому переставлению скобок в формуле суммирования, и количество операций неизменно и равно [math]N - 1[/math]. Поэтому алгоритм должен быть отнесён к алгоритмам линейной сложности по количеству последовательных операций.

1.7 Информационный граф

На рис.1 изображён граф алгоритма. В данном случае выполнено суммирование 16 элементов массива. Вершины, соответствующие входным данным, даны синим цветом, выходным данным - красным цветом.

Рисунок 1. Суммирование массива методом сдваивания

1.8 Ресурс параллелизма алгоритма

Для суммирования массива порядка [math]n[/math] методом сдваивания в параллельном варианте требуется последовательно выполнить [math]\lceil \log_2 n \rceil[/math] ярусов с убывающим (от [math]\frac{n}{2}[/math] до [math]1[/math]) количеством операций суммирования. При классификации по высоте ЯПФ, таким образом, метод сдваивания относится к алгоритмам с логарифмической сложностью. При классификации по ширине ЯПФ его сложность будет линейной.

1.9 Входные и выходные данные алгоритма

Входные данные: массив [math]x[/math] (элементы [math]x_i[/math]).

Дополнительные ограничения: отсутствуют.

Объём входных данных: [math]N[/math].

Выходные данные: сумма элементов массива.

Объём выходных данных: один скаляр.

1.10 Свойства алгоритма

Соотношение последовательной и параллельной сложности в случае неограниченных ресурсов, как хорошо видно, является [math]\frac{n}{\log_2 n}[/math] (отношение линейной к логарифмической). При этом вычислительная мощность алгоритма, как отношение числа операций к суммарному объему входных и выходных данных — всего-навсего 1 (входных и выходных данных столько же, сколько операций). При этом алгоритм полностью детерминирован. Дуги информационного графа нелокальны, от яруса к ярусу наблюдается показательный рост их длины, при любом размещении вершин графа.

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Возможные способы и особенности параллельной реализации алгоритма

2.3 Результаты прогонов

2.4 Выводы для классов архитектур

3 Литература

@@ Строка 1: / Строка 1: @@
-== Описание свойств и структуры алгоритма ==
+{{level-a}}
+Основные авторы описания: [[Участник:Frolov|А.В.Фролов]].
+== Свойства и структура алгоритма ==
 === Общее описание алгоритма ===
@@ Строка 5: / Строка 9: @@
 '''Метод сдваивания''' используется в качестве быстрого варианта вычисления длинных последовательностей ассоциативных операций (например, массового суммирования). Получил распространение благодаря как наименьшей из возможных высоте алгортима, так и из-за ряда своих вычислительных характеристик, а также (в среде нечисленных алгоритмов) из-за своей рекурсивности, то есть лёгкости записи.
-=== Математическое описание ===
+=== Математическое описание алгоритма ===
 Исходные данные: одномерный массив <math>n</math> чисел.
@@ Строка 15: / Строка 19: @@
 === Вычислительное ядро алгоритма ===
-Вычислительное ядро последовательно-параллельного метода суммирования можно составить как из элементарных бинарных (всего <math>n - 1</math>) вычислений сумм, так и (рекуррентно) из набора реализаций метода сдваивания меньших размерностей.
+Вычислительное ядро метода сдваивания для суммирования можно составить как из элементарных бинарных (всего <math>n - 1</math>) вычислений сумм, так и (рекуррентно) из набора реализаций метода сдваивания меньших размерностей.
 === Макроструктура алгоритма ===
@@ Строка 21: / Строка 25: @@
 Как уже записано в описании ядра алгоритма, основную часть метода составляют рекурсивные вызовы сумм массивов меньшей размерности.
-=== Описание схемы реализации последовательного алгоритма ===
+=== Схема реализации последовательного алгоритма ===
 В своём чистом виде суммирование сдваиванием редко используют при последовательной реализации, поскольку при этом усложняется общая схема алгоритма и резко растёт потребность в памяти, нужной для хранения промежуточных данных.
@@ Строка 31: / Строка 35: @@
 === Информационный граф ===
-Опишем граф алгоритма в виде рисунка. В данном случае выполнено суммирование 16 элементов массива.
+На рис.1 изображён граф алгоритма. В данном случае выполнено суммирование 16 элементов массива.
-Вершины , соответствующие входным данным - даны синим цветом , выходным данным - красным цветом.
+Вершины, соответствующие входным данным, даны синим цветом, выходным данным - красным цветом.
-[[file:binary-tree-based summation graph.png|center|thumb|500px|Суммирование массива методом сдваивания]]
+[[file:binary-tree-based summation graph.png|center|thumb|500px|Рисунок 1. Суммирование массива методом сдваивания]]
-=== Описание ресурса параллелизма алгоритма ===
+=== Ресурс параллелизма алгоритма ===
 Для суммирования массива порядка <math>n</math> методом сдваивания в параллельном варианте требуется последовательно выполнить <math>\lceil \log_2 n \rceil</math> ярусов с убывающим (от <math>\frac{n}{2}</math> до <math>1</math>) количеством операций суммирования.
 При классификации по высоте ЯПФ, таким образом, метод сдваивания относится к алгоритмам с ''логарифмической сложностью''. При классификации по ширине ЯПФ его сложность будет ''линейной''.
-=== Описание входных и выходных данных ===
+=== Входные и выходные данные алгоритма ===
 Входные данные: массив <math>x</math> (элементы <math>x_i</math>).
@@ Строка 57: / Строка 61: @@
 Соотношение последовательной и параллельной сложности в случае неограниченных ресурсов, как хорошо видно, является <math>\frac{n}{\log_2 n}</math> (отношение линейной к логарифмической). При этом вычислительная мощность алгоритма, как отношение числа операций к суммарному объему входных и выходных данных — всего-навсего ''1 (входных и выходных данных столько же, сколько операций)''. При этом алгоритм полностью детерминирован. Дуги информационного графа нелокальны, от яруса к ярусу наблюдается показательный рост их длины, при любом размещении вершин графа.
-== Программная реализация ==
+== Программная реализация алгоритма ==
 === Особенности реализации последовательного алгоритма ===
-=== Описание локальности данных и вычислений ===
-==== Описание локальности реализации алгоритма ====
-===== Описание структуры обращений в память и качественная оценка локальности =====
-[[file:Sum doub prof.png|thumb|center|700px|Рисунок 12.1. Суммирование сдваиванием. Общий профиль обращений в память]]
+=== Возможные способы и особенности параллельной реализации алгоритма ===
+=== Результаты прогонов ===
-На рис. 12.1 представлен профиль обращений в память для реализации суммирования элементов массива методом сдваивания. Данный профиль устроен достаточно просто – он представляет собой набор итераций, на каждой итерации происходит последовательный перебор элементов массива с некоторым шагом, причем с каждой следующей итерацией шаг увеличивается вдвое. Этим обуславливается тот факт, что на рис. 12.1 каждая следующая прямая расположена под большим углом. Подобный профиль обладает достаточно высокой пространственной локальностью, поскольку большая часть обращений происходит к соседним или близким элементам. Однако при этом временная локальность низка – к половине элементов обращения происходят только однажды, к четверти – дважды и т.д.
+=== Выводы для классов архитектур ===
-===== Количественная оценка локальности =====
-Основной фрагмент реализации, на основе которого были получены количественные оценки, приведен [http://git.algowiki-project.org/Voevodin/locality/blob/master/benchmarks/vectors/vectors.h здесь] (функция KernelOpD). Условия запуска описаны [http://git.algowiki-project.org/Voevodin/locality/blob/master/README.md здесь].
-Первая оценка выполняется на основе характеристики daps, которая оценивает число выполненных обращений (чтений и записей) в память в секунду. Данная характеристика является аналогом оценки flops применительно к работе с памятью и является в большей степени оценкой производительности взаимодействия с памятью, чем оценкой локальности. Однако она служит хорошим источником информации, в том числе для сравнения с результатами по следующей характеристике cvg.
-На рисунке 12.2 приведены значения daps для реализаций распространенных алгоритмов, отсортированные по возрастанию (чем больше daps, тем в общем случае выше производительность). Можно увидеть, что из-за низкой временной локальности значение daps для данной программы находится на уровне самых неэффективных вариантов реализации перемножения матриц и лишь немногим лучше реализации программы со случайным доступом.
-[[file:Sum doub daps.png|thumb|center|700px|Рисунок 12.2. Сравнение значений оценки daps]]
-Вторая характеристика – cvg – предназначена для получения более машинно-независимой оценки локальности. Она определяет, насколько часто в программе необходимо подтягивать данные в кэш-память. Соответственно, чем меньше значение cvg, тем реже это нужно делать, тем лучше локальность.
-На рисунке 12.3 приведены значения cvg для того же набора реализаций, отсортированные по убыванию (чем меньше cvg, тем в общем случае выше локальность). Можно увидеть, что, согласно данной оценке, локальность реализации суммирования сдваиванием достаточно низка, что согласуется с результатами по оценке daps и анализом самого профиля обращений.
+== Литература ==
-[[file:Sum doub cvg.png|thumb|center|700px|Рисунок 12.2. Сравнение значений оценки cvg]]
+<references />
-=== Возможные способы и особенности реализации параллельного алгоритма ===
+[[Категория:Статьи в работе]]
-=== Масштабируемость алгоритма и его реализации ===
+[[Категория:Метод сдваивания]]
-==== Описание масштабируемости алгоритма ====
+[[Категория:Векторные операции]]
-==== Описание масштабируемости реализации алгоритма ====
-[[file:Масштабируемость сумирования схемой сдваивания производительность.png|thumb|center|700px|Рисунок 1. Параллельная реализация Сумирования схемой сдваивания Максимальная производительность. ]]
-[[file:Масштабируемость Сумирования сдваиванием эффективность.png|thumb|center|700px|Рисунок 2. Параллельная реализация сумирования схемой сдваивания Максимальная эффективность. ]]
-Набор изменяемых параметров запуска реализации алгоритма и границы значений параметров алгоритма:
-*	число процессоров [2 : 256]
-*	размер вектора [512000:10240000]
-Эффективность выполнения реализации алгоритма
-*	Минимальная эффективность 0,00001%
-*	Максимальная эффективность 0,0018%
-Оценка масштабируемости
-*	По числу процессов: -3.059e-06 – при увеличении числа процессов эффективность уменьшается на рассмотренной области изменений параметров запуска, однако, в целом уменьшение не интенсивное. Это объясняется тем, что при увеличении числа процессов доля сильно возрастают накладные расходы на организацию схемы сдваивания сумирования, однако так, как общая эффективность составляет доли процента интенсивность сильная только при переходе от работы процессов в рамках одного физического узла к использованию коммуникационной сети. В остальной области рассмотренных значений параметров запуска эффективность близка к 0 в силу того, что на каждый процесс приходится черезвычайно малая доля вычислений. Больше полезного времени уходит на организацию работы процессов.
-*	По размеру задачи: 6.426e-09 – при увеличении размера задачи эффективность в целом очень незначительно увеличивается по рассматриваемой области. Это объясняется общим увеличением вычислительной сложности задачи в связи с увеличением размерности. Однако вычислительная сложность алгоритма <math>(N-1)</math>не позволяет существенно увеличить долю времени затрачиваемую на вычисления.
-*	По двум направлениям: -8.047e-08 – при рассмотрении увеличения, как вычислительной сложности, так и числа процессов по всей рассмотренной области значений уменьшается, однако интенсивность уменьшения эффективности небольшая. В совокупности с тем фактом, что разница между максимальной и минимальной эффективностью на рассмотренной области значений параметров несущественная говорит о том, что на поверхности присутствуют области с очень интенсивным изменением эффективности на участке 2-16 процессов, но очень малые по площади. На остальной поверхности изменения эффективности незначительны и находятся на приблизительно одном и том же уровне.
-[http://git.algowiki-project.org/Teplov/Scalability/blob/master/doublesum/doublesum.c Исследованная параллельная реализация на языке C]
+[[En:Pairwise summation of numbers]]
-=== Динамические характеристики и эффективность реализации алгоритма ===
-=== Выводы для классов архитектур ===
-=== Существующие реализации алгоритма ===