Transcript SMP服务器适用的地方
CAE-CFD应用与解决方案
1. CAE仿真对高性能计算的需求
• 计算机辅助工程(CAE)与高性能计算
–更快的速度
–更高的精度
–更大的规模
• 问题——如何选择提供最佳应用性能的硬件?
–CAE软件众多,对硬件的需求不一
–硬件更新速度迅速:处理器、互联方式、体系结构
• 曙光公司与MSC、ANSYS、ESI等领先的CAE软件厂
商合作,为用户提供最佳的解决方案!
1.1 CAE软件的不同需求
• 对于Ansys、Nastran以及Abaqus等应用程序
– 并行度不高,扩展性一般小于16CPU
– 单个作业对内存的要求很大
– 单个作业对I/O的空间和性能要求很高
• 以ANSYS为例
– SPARSE----DSPARSE
• 10 GB/MDOF(in-core)
• 10 GB/MDOF I/O
– PCG----DPCG
• 1 GB/MDOF without MSAVE
• 0.5 GB/MDOF I/O
– 虚拟内存(或swap)严重影响速度
• 内存的存取速度是硬盘的几十~几百倍!
– 计算主进程比从进程需要更大内存
• 主进程担负更多 (数据管理、域划分等)
– 主进程需要持续的高性能I/O
• 减少I/O对CPU的占用
• 避免共享文件夹/NFS
• 并行I/O系统(Raid 0)
I/O
• 对于Fluent、CFX、LS-Dyna等程序
– 并行效果好
• 能够在集群环境下并行到超过128个cpu
– 以双路服务器性价比最高
– 对内存的需求不强烈
• 通常1 个cpu core配置1GB 内存即可满足需要。
– 对本地交换硬盘性能要求不高
• 一般采用SCSI/SATA硬盘即可
– 采用高速互联设备可以大幅度提高性能
• 以Fluent 为例,8个双路计算节点时采用Infiniband 互联设备
的性能会比千兆以太网好50%以上。
– Linux 操作系统比Unix 操作系统更加广泛采用,可根据
需要选择Windows
• 对于Feko等电磁场程序
– 采用PO/UTD方法,并行效果很好,能够在集
群环境下并行到超过128个cpu
– 采用MoM/FMM方法,并行扩展性不高,小于
16cpu
– 对内存和I/O的要求比隐式有限元程序还要高得
多
CAE软件可扩展性
• 隐式结构力学
– MSC.NASTRAN
– MARC
– ANSYS
– ABAQUS/Standard
• 显式结构力学
– LS-DYNA
– AutoDyn
– Dytran
– ABAQUS/Explicit
• 计算流体力学
– Fluent
– STAR-CD/HPC
– PowerFLOW
– CFX
– CFD-Fastran
•
•
计算电磁学
– Feko
• 矩量法/FMM < 16cpu
• PO/UTD > 128cpu
声学分析
– sysnoise
1.2 哪些硬件可供选择
• 处理器的选择
– AMD Opteron & Intel Xeon
• 软件兼容性好,管理方便,成本低,性能较高
– IBM Power & Intel 安腾
• 性能较高但价格昂贵,软件兼容度不高
– 发展趋势
• 双核、四核、多核
• X86和RISC的融合
• 运算加速技术等
• 互联方式的选择
– 千兆以太网,带宽小(理论值125MB/s),延迟
大35--45 µs ;
– Myrinet:MPI乒乓测试带宽:230 MB/s,MPI
短消息延迟:7 µs ;
– Infiniband;MPI乒乓测试带宽:850 MB/s,
MPI短消息延迟:< 7 µs ;
体系结构的选择
• 共享内存结构
– 内存支持统一编址
– 处理器之间通过高
速总线连接
– OpenMP支持
– 内部通信能力强
• 例子
– 曙光A950
– IBM P575
• 集群结构
– 内存无法统一编址
– 计算单元通过网络相
连
– MPI支持
– 内部通信能力较弱
• 例子
– 曙光TC4000
– IBM 1350
SMP or 集群?
• SMP服务器适用的地方
– 基于OpenMP/多线程
– 需要大量I/O操作
– Nastran、Ansys、Abaqus、Sysnoise
• 集群服务器适用的地方
–
–
–
–
基于多进程
扩展性较好
需要分布式任务
Fluent、CFX、 Ls-Dyna、 FEKO
SMP+集群解决方案面临的问题
传统方式 RISC SMP服务器+CISC X86集群
1
2
3
4
RISC SMP服务器价格较为昂贵
最典型的异构平台特征
无法实现统一调度
分立存储方式
?
2.曙光CAE高性能计算平台
• 完全基于x86-64处理器的平台
• SMP节点和Cluster节点之间可以实现最大
限度的软硬件兼容性
• 采用Infiniband网络进行所有节点之间的高
速连接
• DCAS/DCJM可对系统软硬件资源进行完善
的管理
• SKVM可对系统进行方便的操作、管理和监
控
2.曙光CAE高性能计算平台
A400W图形工作站区
千兆骨干网络
冗余管理/登录节点
Infiniband
计算网络
千兆管理网络
License Server
A620 I/O节点
核心光纤存储阵列
A950 SMP节点
TC2600刀片集群
方案特点1
• 一体化:完全基于x86-64平台,整合SMP小型机、
刀片集群、SAN存储以及作业管理软件
LSF Client / LS Client
工作组 - 浏览器/命令行/应用程序集成GUI
千兆骨干网络
管理网络
数 据 通 讯 网 络
A950 SMP
服务器
A950 SMP
服务器
存储双机
管理双机
曙光TC2600刀片集群
Infiniband高速互联
光纤交换机
SAN
- 4Gb光纤通道 -
光纤交换机
64个计算节点 - LSF HPC
方案特点2
• 高性能
– 每台SMP服务器天阔A950提供32处理器内核
和256GB以上内存,32*4*2.0G=2560亿次
– 每台TC2600刀片机箱提供80个处理器内核和
64*10GB以上内存,80*4*2.0G=6400亿次
– 10/20Gbps高速Infiniband网络大幅度提升并行
计算性能
– 全4Gb光纤存储网络
方案特点3
• 高可靠
– 管理、IO节点冗余配置
– 网络交换机和光纤交换冗余配置
– 刀片服务器采用全冗余设计
•
•
•
•
电源
风扇
管理模块
交换模块
方案特点4
• 易管理
– SMP节点和Cluster节点之间可以实现最大限度的软硬
件兼容性,降低了管理员的工作难度
– DCAS/DCJM可对系统软硬件资源进行完善的管理
– SKVM可对系统进行方便的操作
举例:内存带宽比较(实测)
数据访问率
• 内存带宽是每秒钟处理器读取或存入内存子系统的数
据量
AMD 皓龙处理器 提供的带
•内存带宽比较 (数据流)
越高越好
宽比2路处理器带宽高
124%
•20000
• AMD 集成的内存控制器可以
提供移动大量的应用数据所需
的高内存带宽
•15000
•带宽
•(MB/s)
•10000
•5000
•0
•Copy
•Scale
•Add
•Triad
•2路至强处理器 5160 (4
•线程)
•6185
•6191
•5760
•5865
•2路 AMD皓龙处理器
•Model 2220 SE (4 线程)
•13480
•13428
•13179
•13296
•4路 AMD皓龙处理器
•Model 2220 SE (8 线程)
•18057
•18018
•18244
•18271
英特尔带宽较低
• 原因在于前端总线瓶颈
计算密集型应用基准测试
--流体力学性能 Fluent性能测试
计算密集型应用基准测试
--流体力学性能 Fluent加速比测试
计算密集型应用基准测试
--LSDYNA性能
计算密集型应用基准测试
--LSDyna机群性能
高速Infiniband网络
Number of Clusters
Top500 Interconnect Trends
260
240
220
200
180
160
140
120
100
80
60
40
20
0
Growth rate from
June 06 to Nov 06
–
–
–
–
InfiniBand
Myrinet
Jun-05
Nov-05
Quadrics
Jun-06
InfiniBand: +105%
Myrinet: -10%
Quadrics: 0%
GigE: -16%
GigE
Nov-06
• InfiniBand is the only growing high speed
interconnect
– 105% growth from June 2006
– 173% growth from Nov 2005
• Clusters continue to dominate with 72.2% of the
Top500 list
1.5 to 2X Faster Run Times with InfiniBand
5.5
5
4.5
4
3.5
3
2.5
2
1.5
1
3.5
Parallel Speedup
Parallel Speedup
Small-car rigid pole (WPI rp_lsd93)
LS-Dyna
InfiniBand
3
2.5
2
1.5
1
1
2
3
4
5
6
7
Number of dual nodes
8
1
2
3
4
5
6
7
Number of dual nodes
8
MPI/TCP/Eth
MPI/TCP/IPoIB
MPI/Verbs
SMP小型机服务器A950
5U机架式高端小型机服务器
CPU:8*AMD Opteron 8000系列双核,支持四核
内存:最大256GB Registered ECC DDRII 667MHz
硬盘:8*73GB 3.5英寸SAS硬盘,128MB Raid
网卡:3*1000M
电源:3+1冗余电源
操作系统:Linux、Windows
GbE
C0
MCP55
Pro
2200
C1
C0
C1
1MB L2 1MB L2
1MB L2 1MB L2
System Request
Interface
System Request
Interface
XBAR
Quad Core
Ready
XBAR
Memory
Controller HT0 HT1 HT2
HT0
HT1
Memory
HT2 Controller
HT0
HT0
HT1
HT2
Flopy
2050
Memory
Controller
HT
1
HT2
XBAR
System Request
Interface
1MB L2 1MB L2
Memory
Controller
ATA
XBAR
System Request
Interface
1MB L2 1MB L2
PCI-E X16
C0
1 PCI-E X16
(Linker X4)
C1
C0
C1
PCI-E X16
80Gb/s
C0
16*16/1024MHz HT
C1
C0
1MB L2 1MB L2
System Request
Interface
System Request
Interface
XBAR
Memory HT0 HT
1
Controller
XBAR
HT2
XBAR
System Request
Interface
1MB L2 1MB L2
C0
C1
HT0
HT1
Memory
HT2 Controller
HT0
HT1
HT2
Memory
Controller
XBAR
System Request
Interface
1MB L2 1MB L2
C0
GbE
4*SATA II
C1
1MB L2 1MB L2
Memory
Controller HT0 HT1 HT2
1 PCI-E X16
(Linker X4)
C1
A950r-F 系统架构
USB 2.0
32bit-PCI
Intel 82541PI
VGA