тов, которое складывается из потребления видеокарты и одного ядра
ЦП. Для
k
= 1
оно составляет 260 Bт и несколько уменьшается для
б´ольших
k
, составляя 220 Bт при
k
= 14
. Это объясняется большей
долей времени выполнения ядер, использующих только один блок вы-
числительной сетки и, следовательно, только один мультипроцессор
ГП. В то же время объем работы, выполняемый ядром вычитания ли-
нейных комбинаций из строк матрицы, от самого
k
фактически не
зависит.
Реализация библиотеки M4RI обладает поддержкой многопоточ-
ности с использованием OpenMP и потенциально может использовать
четыре ядра и восемь логических потоков используемого процессора.
Ее энергопотребление в процессе работы претерпевало значительные
изменения, особенно для
PLUQ
-разложения, что, вероятно, связано с
особенностями используемого алгоритма и отсутствием возможности
полностью загрузить все ядра ЦП. Среднее энергопотребление соста-
вляет около 70 Bт для обоих алгоритмов, что в три раза меньше, чем
для реализации на CUDA. Учитывая более чем шестикратное преиму-
щество реализации на CUDA по времени вычисления, можно считать,
что энергетические и, следовательно, финансовые затраты на работу
данных реализаций в худшем случае сравнимы.
Заключение.
В данной работе была представлена реализация ме-
тода “четырех русских” на графических картах NVIDIA с использо-
ванием технологии CUDA. Показано, что она обладает лучшей или
сравнимой производительностью по сравнению с наиболее быстрой
из известных многопоточных реализаций на ЦП. Дополнительные за-
держки, связанные с пересылкой данных и инициализацией видеокар-
ты, могут быть минимизированы в случае использования видеокар-
ты как основного вычислительного процессора. Учитывая специфику
используемой аппаратуры, вместо стандартных формул для расчета
оптимальных параметров следует использовать динамическую кали-
бровку. Для малых матриц существующие реализации на ЦП остаются
более выгодными.
Автор полагает, что реализация асимптотически более быстрых
методов приведения матрицы с элементами из GF(2) к ступенчатому
виду не сможет показать своих преимуществ из-за ограниченного объ-
ема видеопамяти. Этот вопрос и использование нескольких видеокарт
для обхода данного ограничения являются направлениями дальнейших
исследований.
СПИСОК ЛИТЕРАТУРЫ
1. А р л а з а р о в В. Л., Д и н и ц Е. А., К р о н р о д М. А., Ф а р а д -
ж е в И. А. Об экономном построении транзитивного замыкания ориентиро-
ванного графа. Докл. АН СССР. – 1970. – Т. 194, № 3. – C. 487–488.
ISSN 1812-3368. Вестник МГТУ им. Н.Э. Баумана. Сер. “Естественные науки”. 2013. № 1
59