登录协同仿真时代 - 中南大学高性能计算中心

Download Report

Transcript 登录协同仿真时代 - 中南大学高性能计算中心

CAE-CFD应用高性能集群
实例分析
目录
• CAE HPC技术简介
• CAE产品及HPC性能分析
CAE HPC技术简介
• 两种内存构架的硬件系统
– 共享内存,SMP Server
– 分布内存,Cluster Server
• 两种并行算法
– 共享内存并行算法-SMP(OpenMP)
– 分布内存并行算法-DMP(PVM, MPI)
CAE HPC技术简介
•
共享内存并行算法
–
只能在SMP Server上运行
–
多个CPU或计算内核共享一个内存寻址空间
–
优势:
–
•
<8路并行效率高
•
并行代码相对简单
•
安装调试简单
劣势:
•
>8路内存带宽瓶颈
•
可扩展性较差
CAE HPC技术简介
•
分布内存并行算法
– 能在SMP Server或Cluster Server上运行
– 每个计算进程独享一段连续的内存空间
– Cluster中的每台计算机内部可以是SMP构架
– 优势:
•
优秀的可扩展性
– 劣势:
•
并行代码相对复杂
•
安装运行相对复杂
CAE HPC技术简介
•
互联 (Interconnect) - 计算节点之间的数据交换的硬件和通讯协议
常见的互联种类
•
•
以太网 (百兆/千兆/万兆)
•
Myrinet (Myricom, Inc.)
•
Infiniband (Voltaire, Silverstorm, Cisco, etc.)
•
QsNet (Quadrics Ltd.)
MPI (Message Passing Interface) - 计算进程间的数据交换的软件中间件
常见的MPI软件
•
MPICH(2)
•
LAM MPI
•
HP MPI
•
MS MPI
CAE HPC技术简介
•
评价互联的性能指标
•
带宽:单位时间能够传输的数据量,通常以每秒多少比特来表示
•
–
千兆以太网的理论带宽:1G bit/s
–
Myrinet, Infiniband, QsNet等:10Gb~几百Gb/s
延迟:一个信息包从一个节点传输到另一个
节点所需要的时间
–
千兆以太网:几十到几百微秒
–
Myrinet, Infiniband, QsNet等高速互联:几微妙
•
扩展性:集群可以扩展的CPU或节点数量
•
低CPU占用:互联占用CPU资源的比率
CAE HPC软件
CAE HPC软件
HPC简介及性能分析
• 全面支持最新的32/64位双核处理器和操作系统
– Windows 32&64-bit / Linux / Unix
– IA-32, Intel EM64T & Itanium2(IA-64), AMD64, RISC
• 与众多软、硬件厂商有着广泛的合作
– Microsoft / HP / SGI / IBM / Sun / Intel / AMD
• 多种平台代码优化,提高并行效率
– Windows CCS 2003, MS-MPI
– SGI ProPack 3/4, MPT
– HP, HP-MPI
HPC简介及性能分析
• 对FEA求解器不断进行优化和创新
– 19xx年xx月,第一个SMP版本(V4.3)
– 2000年11月,第一个DMP—DDS
– 2003年11月,DPCG, DJCG
– 2004年05月,1.11亿自由度
– 2004年06月,支持x64;
– 2004年11月,DSPARSE, DANSYS
– 2005年08月,高速互联(如Voltaire)
– 2005年11月,SC05展示支持WCCS
– 2006年11月,DLANPCG(v11)
– ……
HPC简介及性能分析
• 2004年5月,ANSYS在纳斯达克股市发布求
解一亿自由度的有限元问题。
ANSYS PCG Solver Speed Up
Structual Model with 12,800,000 DOFs
8
7
6
5
4
3
2
1
0
PCG 1-CPU
PCG 2-CPU
PCG 4-CPU
PCG 8-CPU
HPC简介及性能分析
• SC05, 西雅图, ANSYS在WCCS上的演示:
–
–
–
–
操作系统: Windows Compute Cluster Server 2003
应用软件: ANSYS 11.0 开发版
硬件系统: 四台双路Intel Xeon服务器+一台双路工作站
互联: Infiniband (Voltaire )
– 模型:24M自由度汽车悬挂
HPC简介及性能分析
• ANSYS求解器的HPC特性:
• 大内存
• 高性能IO
• 高性能互联
HPC简介及性能分析
• ANSYS 对内存的需求:
• 每百万自由度需要的内存
• DPCG, 大约1.5-2.0 GB/MDOF
• DPCG (MSAVE,ON), 大约0.5~0.7G/MDOF
• DSPARSE (out-core), 1~1.5 GB/MDOF
• DSPARSE (In-core), 10~15GB/MDOF
• 虚拟内存(或swap)严重影响速度
• 内存的存取速度是硬盘的几十~几百倍!
• 计算主进程比从进程需要更大内存
• 主进程担负更多 (数据管理、域划分等)
• 32-bit 还是 64-bit
• 232 = 4,294,967,296 (4 GB)
•
264
= 18,446,744,073,709,551,616
基于Intel Woodcrest的主板
16个内存插槽!!!
HPC简介及性能分析
HPC简介及性能分析
•
•
•
•
•
ANSYS 11.0 Preview5
曙光A950, 8路16核, 32G内存, 3x73GB Ultra 320 SCSI Raid0
Windows Enterprise Server 2003 x64 + Compute Cluster Pack
45M DOF, 线性静力分析,
DPCG求解器(MSAVE,ON), MS-MPI, 4CPU并行
HPC简介及性能分析
•
•
•
•
峰值内存占用达30G!
结果文件达13G!
Solver Time 6.6小时
Wall Time 12.3小时
HPC简介及性能分析
• ANSYS对I/O的需求:
• 每百万自由度需要的存储空间
• DPCG, 大约 0.5 GB/MDOF
• DSPARSE (out-core), 大约10 GB/MDOF
• 主进程需要持续的高性能I/O
• 减少I/O对CPU的占用
• 避免共享文件夹/NFS
• 并行I/O系统(Raid 0)
I/O
HPC简介及性能分析
• ANSYS 支持所有主流的高速互联:
•
Ethernet (Gigabyte, 10G)
•
Myrinet
•
Packaging Machine Analysis
Infiniband (Voltaire) with Infiniband and TCP/IP Interconnects
•
Quadric
6.0
Infiniband
TCP/IP
Elapsed Time
Speed-Up
5.0
•
4.0
即使的CPU数量较少,3.0
Infiniband比千兆以太
网仍有明显优势。
2.0
1.0
0.0
1
2
4
Number of Processors
8
HPC简介及性能分析
• ANSYS对CPU的要求:
•
64位(32位?)
•
高浮点运算能力
•
支持双核或多核
10000
9000
高浮点运算能力(赛扬?)
Time (s)
•
8.9M DOF DPCS Static Stress
Dawning A950, 8-way 16-core , 32G Memory
8000
7000
8906
Total Elapsed Time
DPCG Solver Elapsed Time
7943
6000
5000
4000
5375
4025
3142
3000
2000
2149
2338
1363
2142
1121
1000
0
1
2
4
CPU #
8
16
CAE HPC软件
HPC简介及性能分析
• 精确、可靠、高效、成熟的一流商用CFD软件
(Fully Implicit, coupled multigrid solver)
• 全面支持最新的HPC技术
– 大规模集群计算
– 双核、多核、64-bit
– 高速互联(Myri, IB, etc.)
• 不断提高代码并行效率
– Microsoft, WCCS 2003
– HP, HP-MPI
– SGI, ProPack MPT
HPC简介及性能分析
• 高并行度:384+CPU并行,64CPU以下接近线性
• 高灵活性:允许Windows/Linxu/Unix混合并行!
• 高易用性:设置极为简单,自动/定制并行域划分
• 高适用性:支持所有物理模型(多参考系/多相流/燃烧/等)
HPC简介及性能分析
• 多种域划分方式
HPC简介及性能分析
• CPU的增多并不显著增加总内存的需求
– 4.2M单元,总内存随CPU增加基本保持恒定(15%)
– 主进程不需要比从进程更多内存
– 小内存的集群可求解大问题!
HPC简介及性能分析
• “杀富济贫”功能
HPC简介及性能分析
• 并行有串行求解同样“美丽”的“减肥”(收敛)曲线
16-CPU
单CPU
16 Partitions
HPC简介及性能分析
• CFX求解器的HPC特性:
– 足够的内存即可(建议最多4G/核)
• Hexa 大约0.9~1G / 1M单元
• Tetra 大约0.65~0.7G / 1M单元
– I/O要求不高(相对ANSYS)
• 大约0.5G / 1M单元
– 需要多CPU多核
• 集群
HPC简介及性能分析
Parallel Speedup for 2-CPU Itanium2 Clusters
Parallel Speedup
70
60
50
46.59
40
33.00
30
20
Test case: bigpipe
10
0
0
10
20
30
40
# CPUs
Linear Scaling
Gigabit
50
60
Infiniband
70
HPC简介及性能分析
CFX在512-CPU的CRAY-T3E超级计算机上的并行测试。
300万节点问题。
4.5
4
Speed UP
3.5
3
2.5
2
1.5
1
0.5
0
64
128
192
256
320
CPU #
384
448
512
安世亚太CAE HPC软件
HPC简介及性能分析
• 专门解决冲击、爆轰等问题的非线性动力学显式分析软件
• 丰富的求解器
Processor 3
– Lagrange, Euler, ALE, SPH, etc.
• 支持的计算平台及并行中间件
– Microsoft Windows, WMPI
Processor 1
Processor 2
– Linux x64 & IA-64(Itanium2), PVM, HP-MPI(soon)
– HP-UX, PVM, HP-MPI(soon)
Processor 4
HPC简介及性能分析
• 高性能并行求解器
HPC简介及性能分析
• 飞机撞击世贸大厦的模拟
– 强大的并行
计算能力
– 重启动功能
HPC简介及性能分析
• 4-CPU AUTODYN并行计算性能测试
– 1,728,000单元、1,771,561节点
– AUTODYN 6.0, PVM
Intel Xeon
Woodcrest
(3.0G)
Intel Xeon
Dempsey (3.2G)
AMD Opteron
248(2.2G)
0
0.5
1
1.5
2
安世亚太CAE HPC软件
HPC简介及性能分析
•
LS-DYNA - 通用瞬态动力学有限元软件
•
最广泛的HPC技术的支持
– 第一个正式发布支持WCCS2003的商业CAE软件
– x64平台支持多种MPI: MPICH, LAM, HP-MPI, Intel MPI, Scali
– 支持多种高速互联构架
• Infiniand (Voltaire, etc.)
• Myrinet (SSC)
• SGI NumaLink (MPT)
• InfiniPath
• Cray RapidArray
•
硬件商最喜欢的M-CAE软件
HPC简介及性能分析
•
LS-DYNA MPP 970 7600.398支持的硬件/OS/互联
/MPI
Vendor
O/S
HPC Intereconnect
MPI Software
AMD Opteron
Linux / WCCS2003
IB Myri, Quardrics, InfiniPath, RA
LAM, MPICH, HP, SCALI, MS, Cray
Apple
Mac OSX 10.4
LAM/MPICH
FUJITSU Prime Power
SUN OS 5.8
FJSVmpi2
HP PA8000
HPUX
HP-MPI
HP IA64
HPUX
HP-MPI
HP Alpha
True 64
Compaq MPI
IBM Power 4/5
AIX 5.x, Linux
POE,LAM/MPI
INTEL IA32
Linux, Windows
IB, Myri
LAM/MPI, MPICH, HP MPI, SCALI
INTEL IA64
Linux
IB, Myri, Quodric
LAM/MPI, MPICH, HP MPI
INTEL Xeon EMT64
Linux / WCCS2003
IB, Myri, Quodric InfiniPath
LAM, MPICH, HP, INTEL, SCALI, MS
NEC SX6
Super-UX
SGI Mips
IRIX 6.5 X
NUMAlink
MPT
SGI IA64
Linux with ProPack
NUMAlink, IB
MPT, Intel MPI, MPCIH
SUN Sparc
5.8 and above
MPI/SX
Sun HPC
HPC简介及性能分析
•
www.topcrunch.org 3车碰撞算例
– 共794,789单元
– 150毫秒
HPC简介及性能分析
64
56
线性理论值
48
Cray RapidArray
40
p
U
d32
e
e
p
S
24
29.2
20.5
16
12.9
8
6.5
3.5
1.9
1.0
0
0
8
16
24
32
40
Nodes (4core/nodes)
48
56
64
HPC简介及性能分析
16
13.74
14
Wall time (s)
12
Woodcrest 5160(3.0G) / Infiniband
Opteron 275 (2.2G) / Cray RA
11.21
10
8
7.29
6.51
6
3.91
4
3.17
2.11
2
1.65
0.95 1.07
0.67
0.47
0
1/4
2/8
4/16
8/32
Nodes/Cores
16/64
32/128
64/256
HPC简介及性能分析
• WCCS2003 / Linux上性能对比测试—上海超级计算中心
• 测试算例:汽车侧撞
– 总单元数: 745,892
– 总节点数: 678,733
– 碰撞时间: 90微秒
• 测试机器:曙光4000A
方案一
方案二
版本
mpp970_s_6763.367_winx64 msmpirc1
mpp970_s_6763.169_linux_ADM64/MPICH1.2.6_GM
操作系统
Windows server 2003 x64 + CCP
Turbo Linux 8.0 With LSF HPC 6.0
节点/互联
Myrinet 2000
Myrinet 2000
HPC简介及性能分析
测试结果对比
12
10
Wall time (小时)
•
10.65
9.83
WCCS2003
Linux Cluster
8
6.11 5.79
6
4.30 4.44
4
2
0
4
8
CPU #
12
HPC简介及性能分析
•
•
•
•
•
LS-DYNA MPP 的HPC特性
足够的内存(建议每核2~4G)
大容量存储
高CPU浮点计算
高性能互联
CAE HPC软件
HPC简介及性能分析
• 唯一采用MOM/MLFMM/PO/UTD/FEM,精确
方法和高频近似方法混合的专业电磁仿真软件
• 基于MPI的DMP算法
– 并行效率~0.8(32个CPU达26倍)
• 支持各类硬件平台和OS
– Windows 32 / x64 / IA64
– Linux 32 / x64 /IA64)
– Unix
HPC简介及性能分析
• 使用多种工具调优,提高并行度
– GNU gprof,
– Intel VTune,
– IBM/Rational PurifyPlus,
– AMD CodeAnalyst, …
• DMP开发历史
– 1994年开始使用RPC
(Remote Procedure Call)
– PVM
– 1995年开始转向MPI(MPICH, Scali, Intel MPI etc.)
HPC简介及性能分析
• FEKO 目前可用的MPI软件:
–
–
–
–
–
–
–
–
–
–
MPICH and MPICH-2 (for Windows & Linux)
ScaMPI from Scali (first MPI supporting the SCI interface)
HP-MPI
NEC MPI
SGI MPT (e.g. for Altix with NumaFlex technology)
CRAY MPT
SCore
GM
Parastation MPI
Intel MPI
HPC简介及性能分析
• 卡塞格伦天线辐射特性分析(176,606未知量)
9
8.0
8
FEKO 4.1 on Linux Cluster
Feko 5.11 on Windows SMP
7
小时
6
5
4.3
3.8
4
3
2.1
2
1.8
1.1 0.9
1
0.6 0.5
0.3
0
1
2
4
8
CPU #
16
32
HPC简介及性能分析
•
FEKO线性求解器(LU分解,15,324未知量):
(16台双路单核Intel
2.4
GHz) (FEKO run-time for matrix solve)
PerformanceXEON
of different
interconnects
1.600
MPICH / GigEth
ScaMPI / GigEth
ScaMPI / SCI
1.200
Run-time in sec
•
ScaMPI / Infiniband
800
400
0
4
8
16
Number of processes
32
HPC简介及性能分析
FEKO电近场/磁近场/远场计算
10
9
electric near-field
magnetic near-field
far-field
8
7
Speedup
•
6
5
4
3
2
1
0
1
2
3
4
5
6
7
Number of processes
8
9
10
HPC简介及性能分析
• FEKO并行快速多级子算法进行整船电磁分析
• 测试算例:
整船模型一: 3 M未知量
整船模型二: 5.7M未知量
(SGI Altix IA-64)
total times
100%
90%
80%
70%
60%
50%
40%
30%
34,84%
49,03%
37,44%
67,84%
59,89%
10%
88,44%
20%
85,08%
efficiency [%]
•
•
•
0%
2
4
8
# of parallel processes
Generic_Ship_small_mpt
Generic_Ship_mpt
10
HPC简介及性能分析
FEKO并行快速多级子算法每个进程需要的内存
(3 M未知量整船模型)
未来发展方向:
25
• 提高加速比
20
Memory [GByte]
• 减少内存用量
15
10
5
0
1
2
4
Number of parallel processes
8
10
HPC简介及性能分析
• FEKO对HPC系统的要求
– 海量内存
– 高性能I/O(out-of-core)
– 高速互联
– 高浮点CPU
CAE HPC软件
HPC简介及性能分析
• NASA Ames研究中心开发的
高可信度的无粘流体分析工具
• 并行代码基于OpenMP & MPI
• 可使用Native MPI或MPICH
• 令人难以致信的并行度
HPC简介及性能分析
• Cart3D 在SGI Origin 3800上的并行测试