512 GPUs - mpamcs 2012

Download Report

Transcript 512 GPUs - mpamcs 2012

Пределы детализации и
формулировка уравнений,
описывающих поведение
сплошной среды.
Четверушкин Б.Н.
Институт прикладной математики им. М.В. Келдыша
РАН
Grand Challenge – Экзафлопсные
вычисления
Рост производительности вычислительной
техники – 1EXAFLOPS – 2018 г.
Системы производительностью в 1PFLOPS
будут достаточно распространены к 2015 г.
Существует реальная потребность в
высокопроизводительных
вычислениях:
нефтедобыча, экологически чистое горение,
атомная и термоядерная энергетика,
турбулентность, астрофизика
В настоящее время расчетов использующих
более 100 TFLOPS на задачу мало.
Фактически существует 100 TFLOPS барьер.
Причина: необходимость использования
для высокопроизводительных вычислений
принципиально
новых
моделей,
алгоритмов программного обеспечения.
Логически простые, но эффективные
алгоритмы.
Решение средствами фундаментальной
науки
«Физически» бесконечно малый объем содержит
несколько десятков молекул.
В воздухе нормальной плотности, характерный
размер этого объема
– размер
молекулы
см,
– длина свободного пробега
Уравнение теплопроводности –
парадокс мгновенного распространения тепла
Неявная схема – парадокс существует
Явная схема –конечная скорость распространения
Гиперболическая теплопроводность
Кинетические схемы – квазигазодинамическая система
1983 г.
Умножим на сумматорные инварианты
и проинтегрируем по скоростям молекул
Гиперболическая система - КГУ
КГУ =N - S + O(Kn2)
- Дюффорт Франкел
Lattice Boltzmann схемы
БГК модель
Явные схемы.
В роли длины свободного пробега выступает h
Метод стабилизационных поправок
Проинтегрируем это уравнение на отрезке
и воспользуемся разложением в ряду Тейлора
- внутреннее время
При наличии достаточных вычислительных ресурсов степень
детализации (величина h) определяется из реальных
потребностей.
Задачи фильтрации
- несколько
десятков зерен
породы
Уравнение Больцмана
- вероятностный характер и объем диаметра
содержать несколько десятков молекул
должен
Моделирование течения в каверне
Мгновенные
линии тока,
Уровни давления
Моделирование течения в каверне
Сетка: 1024 блока, общее число ячеек сетки – 32 млн.
Эффективность параллельного расчета при различном числе ускорителей
(GPU) На СК «Ломоносов», МГУ им. М. В. Ломоносова.
В расчете использовалось до 512 GPU (256 узлов gpu-сегмента)
#GPUs
4
8
16
32
64
128
256
512
Time, s
414.8
209.8
110
62.9
33.9
16.6
8.7
4.76
4.0
7.9
15.1
26.4
48.9
100.0
190.7
348.6
100.0
98.9
94.3
82.4
76.5
78.1
74.5
68.1
SpeedUp
Efficiency %
Весь расчет проводился на GPU, CPU-ядра отвечают только за управление
графическими процессорами. Данные располагаются целиком в памяти GPU
Моделирование течения в каверне
Сравнение производительности GPU и CPU
Time, s
SpeedUp
512 GPUs
(256 Nodes)
512 CPU-cores
(64 Nodes)
4.76
67.68
14.25
Таким образом, при использовании только CPU-ядер потребовалось бы в 3.5
раза больше узлов вычислительной системы – порядка 900 (больше 7000
ядер).
Максимальный расчет проводился на 684 GPU (трехмерная каверна с
подвижной крышкой). Размерность сетки ~400 млн.
Hyperbolic Model of Multiphase Fluid Flow in
Porous Medium
   S 
 2   S 
m

 div   u  
2
t
t
l c
 q  div   grad   S 
2
k
u   K   grad p   g 
3D problem of tetrachloroethylene
infiltration into the water-saturated soil
(vertical central section)

   0 1    p  p0  
S  1


p  p  pc   S , S   ,   
α (  ) indicates the phase
t
h
3
2
Contaminant saturation field
Комплекс программ для моделирования
процессов в подземном пространстве на
гибридных суперкомпьютерах
• Задачи в прямоугольных областях, покрытых ортогональными
расчетными сетками;
• Логически простые алгоритмы на основе явных разностных схем;
• Геометрический параллелизм, равномерная балансировка загрузки
и обмен данными на внутренних границах подобластей;
• Язык программирования C++, технологии CUDA и MPI ;
• Модульная структура (вычислительные, коммуникационные и
управляющие модули);
• Расчеты 2D и 3D задач с двойной точностью;
• Операционные системы Windows и Linux;
• Возможность задействовать всю вычислительную мощность NUMA
кластеров (любое число многоядерных CPU и GPU);
• Оптимизация доступа к различным типам памяти,
предпочтительное использование кэшируемой памяти.
Эффективность параллельной реализации
Расчеты 3D тестовой задачи просачивания на суперкомпьютере К-100
Количество расчетных точек – 15 миллионов
Вычислительные устройства
Ускорение
1 GPU по сравнению с 1 ядром CPU
108.5
1 GPU по сравнению с 1 CPU (6 ядер)
20.4
3 GPU по сравнению с 2 CPU (12 ядер)
14
Количество расчетных точек – 1.5 миллиарда
Вычислительные устройства
80 GPU по сравнению с 80 ядрами CPU
Ускорение
71.8
Заключение
• Современные суперкомпьютеры в ряде случаев уже не
ставят ограничений на степень детализации решения.
• Существуют масштабы, меньше которых детализация не
имеет смысла.
• Дополнительные члены, как правило, выступают в роли
физически обоснованных регуляризаторов, сглаживая
нефизические эффекты, получающиеся при численном
решении.
• Конкретное значение коэффициентов, входящих в
решение, важно лишь по порядку величины.
• Учет минимальных размеров тесным образом связан с
характером вывода уравнений сплошной среды,
использующим представление конечного объема и
дискретного описания среды.