Участник:Vid1525/Дерево отрезков

Алгоритм нахождения суммы чисел на отрезке с помощью одномерного "Дерево отрезков"
Последовательный алгоритм
Последовательная сложность	$O(qlog(n))$
Объём входных данных	$n$
Объём выходных данных	$q$

Автор: И.Д. Васенков

Содержание

1 Свойства и структура алгоритма
2 Программная реализация алгоритма
3 Литература

1 Свойства и структура алгоритма

1.1 Общее описание алгоритма

Дерево отрезков - это упорядоченная древовидная структура данных для хранения списка точек. Эта структура позволяет эффективно сообщать результаты некоторых запросов на отрезках данного списка точек (например сумма / минимум) и обычно используется в двух или более измерениях. Деревья отрезков были введены Джоном Луисом Бентли в 1979 году. Аналогичные структуры данных были обнаружены независимо Лукером, Ли и Вонгом. Дерево отрезков является альтернативой дереву k-d. По сравнению с деревьями k-d, деревья отрезков обеспечивают более быстрое время запроса (в обозначении Big O) $O(log ^ dn)$ , но худшее хранение $O(nlog^{d-1}n)$ , где n - количество точек, сохраненных в дереве, d - размерность дерева. В данной работе будет рассматриваться одномерное дерево отрезков.

1.2 Математическое описание алгоритма

Формальная постановка задачи:

Дана последовательность чисел длины $n$ , далее будем обозначать элементы этой последовательности как $a_{0}, a_{1}, ..., a_{n-1}$ . Элементы последовательности - некоторые вещественные числа.

Суммой на отрезке $[l, r]$ данной последовательности назовем такое число $S$ , такое что $S = \sum_{i=l}^{r}a_{i}, 0 \leq l \leq r \lt n$ .

Дано $q$ запросов суммы на отрезках $[l_{i}, r_{i}]$ , $i = 1..q$ , $i$ - индекс запроса. $0 \leq l_{i} \leq r_{i} \lt n$

Необходимо:

По входной последовательности $a_{0}, a_{1}, ..., a_{n-1}$ и входным запросам вернуть последовательность $S_{1}, ..., S_{q}$ - последовательность сумм на отрезках, заданных в запросах.

Дерево отрезков позволяет выполнять операции получения суммы не за линейное время (за длину входного отрезка), а за время $O(log(n))$ . Такая скорость работы достигается за счет хранения информации о суммах на некоторых отрезках входной последовательности и благодаря процессу предобработки входной последовательности перед выполнением запросов (Подробная реализация предобработки и запросов описана в пункте 1.5).

1.3 Вычислительное ядро алгоритма

Зачастую основное время выполнение алгоритма занимают операции получения сумм на отрезках, так как операция построения дерева выполняется один раз, а количество запросов суммы может быть достаточно большим.

1.4 Макроструктура алгоритма

Основные операции алгоритма:

Предобработка - заполение значений частичных сумм на подотрезках.
Выполнение операции запроса суммы на отрезке.

1.5 Схема реализации последовательного алгоритма

Построение дерева:

Cоздать массив $tree$ размера $2^{k+1}$ для хранения дерева отрезков, где $2^{k-1} \lt n \leq 2^{k} = m$ , $k$ - натуральное число, $n$ - длина входного массива $a$ (массив $tree$ для удобства инициализируется нулевыми значениями)
Перенести значения сходного массива $a$ в массив $tree$ следующим образом: $tree[m+i] = a[i], i = 0..n-1$
Произвести операцию инициализации значений на более высоких уровнях дерева:

for (i = m - 1; i > 0; --i)
    tree[i] = tree[i * 2] + tree[i * 2 + 1];

Таким образом получим массив tree, в котором хранятся значения некоторых сумм для исходного массива (например сумма всех значений исходного массива хранится в элементе tree[1]).

Запрос суммы на отрезке:

На вход поступают два числа $l$ и $r$ - границы отрезка, необходимо посчитать сумму на отрезке $a[l .. r]$ .

Для этого мы будем спускаться по построенному дереву отрезков, используя для подсчёта ответа посчитанные ранее суммы на каждой вершине дерева. Изначально мы встаём в корень дерева отрезков. Посмотрим, в какие из двух его сыновей попадает отрезок запроса $[l .. r]$ (напомним, что сыновья корня дерева отрезков — это отрезки $[0 .. n/2]$ и $[n/2+1 .. n-1]$ ). Возможны два варианта: что отрезок $[l..r]$ попадает только в одного сына корня, и что, наоборот, отрезок пересекается с обоими сыновьями.

В первом случае: перейдём в того сына, в котором лежит наш отрезок-запрос, и применим описываемый здесь алгоритм к текущей вершине.

Во втором же случае нам не остаётся других вариантов, кроме как перейти сначала в левого сына и посчитать ответ на запрос в нём, а затем — перейти в правого сына, посчитать в нём ответ и прибавить к нашему ответу. Иными словами, если левый сын представлял отрезок $[l_1 .. r_1]$ , а правый — отрезок $[l_2 .. r_2]$ (заметим, что $l_2 = r_1 + 1$ ), то мы перейдём в левого сына с запросом $[l .. r_1]$ , а в правого — с запросом $[l_2 .. r]$ .

Таким образом после завершения первого вызова данной фукнции можно получить сумму на отрезке $[l, r]$ .

1.6 Последовательная сложность алгоритма

Построение дерева:

Для длины увеличенного массива m (m - степень двойки) справедлива оценка сверху $m \lt 2n$ (худший случай, когда исходная длина массива была $n = 2^{k}+1$ , тогда нужно добавить в конец исходного массива $2^{k} - 1$ элементов). При построении дерева необходимо хранить суммы на подотрезках, но так как дерево отрезков имеет структуру полного бинарного дерева, а нижний уровень содержит m вершин, то всего в дереве не более 2m узлов, при этом каждый узел заполняется только один раз). Следовательно на предобработку необходимо $O(n)$ операций.

Запрос суммы на отрезке:

При запросе суммы необходимо спускаться вниз по дереву, утверждается, что на каждом уровне дерева алгоритм посетит не более 4 вершин, учитывая оценку на высоту дерева отрезков - $O(log(n))$ , получаем оценку на выполнение операции - $O(log(n))$ .

1.7 Информационный граф

Пример построения дерева отрезков для массива длины n = 6, a = [1, 2, 3, 4, 5, 6] (зеленые вершины - элементы исходного массива в дереве).

Пример запроса суммы на отрезке [1..4] для массива из предыдущего примера (красные стрелки показывают, переходы между вершинами при выполнении функции запроса, синие вершины - вершины, из которых были взяты значения для суммирования на отрезке).

1.8 Ресурс параллелизма алгоритма

При отсутствии изменяющих запросов в дереве отрезков можно считать, что все запросы к дереву могут быть выполнены параллельно (если количество потоков выполнения запросов не ограничено). При построении дерева необходимо учитывать, что более высокие слои дерева невозможно построить без предыдущих более низких слоев, поэтому строить дерево лучше всего снизу вверх (запускать несколько потоков суммирования значений на одном уровне, после чего переходить к следующему).

1.9 Входные и выходные данные алгоритма

Входные данные: - Массив чисел длины n (в данном примере считаем, что элементы массива - 64-битные целые беззнаковые числа, суммирование происходит по модулю $2^{64}$ )

- q запросов, каждый из которых состоит из пары чисел $l_{i}$ и $r_{i}, l_{i}, r_{i} \in [0, n-1]$ и $l \leq r$ ; числа l и r задают границы отрезка, на котором будет происходить суммирование чисел (индексация массива начинается с нуля, $i = 1, ..., q$ - номер запроса)

Выходные данные: - Массив сумм на отрезках $[l_{i}, r_{i}], i = 1, ..., q$ (размер массива - q)

1.10 Свойства алгоритма

2 Программная реализация алгоритма

2.1 Особенности реализации последовательного алгоритма

2.2 Локальность данных и вычислений

2.3 Возможные способы и особенности параллельной реализации алгоритма

2.4 Масштабируемость алгоритма и его реализации

Проверка масштабируемости проходила на машине Ломоносов-2.

Используемые версии ПО:
ОС: CentOS Linux release 7.9.2009 (Core)
Компилятор: gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-44)
Версия OpenMP: 3.1
Максимальное количество потоков выполнения для OpenMP: 56 ( отображается при вызове функции omp_get_max_threads)

Входные данные:
Количество элементов во входном массиве (n): 10000000
Количество запросов (q): [10000000, 20000000, 30000000, 40000000, 50000000, 60000000, 70000000]
Количество потоков выполнения: [1, 2, 4, 8, 16, 32, 64]

По графику можно видеть, что время выполнения запросов обратно пропорциональна количеству потоков (до определенного момента). При количестве потоков = 64 можно видеть увеличение времени работы по сравнению с тем значением, которое соответствует количеству потоков = 32, это можно объяснить тем, что максимальное количество потоков выполнения для OpenMP на данной машине = 56, и при большем количестве потоков, чем это число время работы ухудшается, так как больше времени уходит на переключение контекста между потоками, и меньше на полезную работу.

Входные данные:
Количество элементов во входном массиве (n): [10000000, 20000000, 30000000, 40000000, 50000000, 60000000, 70000000]
Количество потоков выполнения: [1, 2, 4, 8, 16, 32, 64]

По графику сильной масштабируемости для алгоритма построения дерева можно видеть, что время работы практически не уменьшается при увеличении количества потоков, это говорит о плохой масштабируемости данного алгоритма для приведенных входных данных, это можно объяснить тем, что при построении дерева должна соблюдаться правильная последовательность построения слоев дерева, из-за которой ухудшается качество распараллеливания программы при недостаточно больших размерах входного массива. Однако можно видеть некоторое улучшение качества скорости работы, когда количество элементов во входном массиве достаточно большое (это объясняется тем, что на более низких уровнях дерева, где достаточно много элементов, распараллеливание алгоритма работает эффективно, так как контекст программы переключается не так часто, как на более высоких уровнях дерева).

Количество запусков для усреднения в обоих случаях было равно 20.
Код программы для запуска вычислений: https://pastebin.com/9jTmePNS
Код программы для вывода значений при различных параметрах: https://pastebin.com/7CJaPxWb

2.5 Динамические характеристики и эффективность реализации алгоритма

2.6 Выводы для классов архитектур

2.7 Существующие реализации алгоритма

Sqlite https://www.sqlite.org/

SciPy https://scipy.org/

Sklearn https://scikit-learn.org/stable/

3 Литература

1. Bentley, J. L. (1979). "Decomposable searching problems".

2. Lueker, G. S. (1978). "A data structure for orthogonal range queries". 19th Annual Symposium on Foundations of Computer Science (sfcs 1978).

3. Lee, D. T.; Wong, C. K. (1980). "Quintary trees: A file structure for multidimensional database systems". ACM Transactions on Database Systems.