Приведение плотных матриц с элементами из GF(2) к ступенчатому виду на платформе NVIDIA CUDA

тов, которое складывается из потребления видеокарты и одного ядра

ЦП. Для

k

= 1

оно составляет 260 Bт и несколько уменьшается для

б´ольших

k

, составляя 220 Bт при

k

= 14

. Это объясняется большей

долей времени выполнения ядер, использующих только один блок вы-

числительной сетки и, следовательно, только один мультипроцессор

ГП. В то же время объем работы, выполняемый ядром вычитания ли-

нейных комбинаций из строк матрицы, от самого

k

фактически не

зависит.

Реализация библиотеки M4RI обладает поддержкой многопоточ-

ности с использованием OpenMP и потенциально может использовать

четыре ядра и восемь логических потоков используемого процессора.

Ее энергопотребление в процессе работы претерпевало значительные

изменения, особенно для

PLUQ

-разложения, что, вероятно, связано с

особенностями используемого алгоритма и отсутствием возможности

полностью загрузить все ядра ЦП. Среднее энергопотребление соста-

вляет около 70 Bт для обоих алгоритмов, что в три раза меньше, чем

для реализации на CUDA. Учитывая более чем шестикратное преиму-

щество реализации на CUDA по времени вычисления, можно считать,

что энергетические и, следовательно, финансовые затраты на работу

данных реализаций в худшем случае сравнимы.

Заключение.

В данной работе была представлена реализация ме-

тода “четырех русских” на графических картах NVIDIA с использо-

ванием технологии CUDA. Показано, что она обладает лучшей или

сравнимой производительностью по сравнению с наиболее быстрой

из известных многопоточных реализаций на ЦП. Дополнительные за-

держки, связанные с пересылкой данных и инициализацией видеокар-

ты, могут быть минимизированы в случае использования видеокар-

ты как основного вычислительного процессора. Учитывая специфику

используемой аппаратуры, вместо стандартных формул для расчета

оптимальных параметров следует использовать динамическую кали-

бровку. Для малых матриц существующие реализации на ЦП остаются

более выгодными.

Автор полагает, что реализация асимптотически более быстрых

методов приведения матрицы с элементами из GF(2) к ступенчатому

виду не сможет показать своих преимуществ из-за ограниченного объ-

ема видеопамяти. Этот вопрос и использование нескольких видеокарт

для обхода данного ограничения являются направлениями дальнейших

исследований.

СПИСОК ЛИТЕРАТУРЫ

1. А р л а з а р о в В. Л., Д и н и ц Е. А., К р о н р о д М. А., Ф а р а д -

ж е в И. А. Об экономном построении транзитивного замыкания ориентиро-

ванного графа. Докл. АН СССР. – 1970. – Т. 194, № 3. – C. 487–488.

ISSN 1812-3368. Вестник МГТУ им. Н.Э. Баумана. Сер. “Естественные науки”. 2013. № 1

59

Приведение плотных матриц с элементами из GF(2) к ступенчатому виду на платформе NVIDIA CUDA - page 10

Warning.