Transcript SMP服务器适用的地方
CAE-CFD应用与解决方案 1. CAE仿真对高性能计算的需求 • 计算机辅助工程(CAE)与高性能计算 –更快的速度 –更高的精度 –更大的规模 • 问题——如何选择提供最佳应用性能的硬件? –CAE软件众多,对硬件的需求不一 –硬件更新速度迅速:处理器、互联方式、体系结构 • 曙光公司与MSC、ANSYS、ESI等领先的CAE软件厂 商合作,为用户提供最佳的解决方案! 1.1 CAE软件的不同需求 • 对于Ansys、Nastran以及Abaqus等应用程序 – 并行度不高,扩展性一般小于16CPU – 单个作业对内存的要求很大 – 单个作业对I/O的空间和性能要求很高 • 以ANSYS为例 – SPARSE----DSPARSE • 10 GB/MDOF(in-core) • 10 GB/MDOF I/O – PCG----DPCG • 1 GB/MDOF without MSAVE • 0.5 GB/MDOF I/O – 虚拟内存(或swap)严重影响速度 • 内存的存取速度是硬盘的几十~几百倍! – 计算主进程比从进程需要更大内存 • 主进程担负更多 (数据管理、域划分等) – 主进程需要持续的高性能I/O • 减少I/O对CPU的占用 • 避免共享文件夹/NFS • 并行I/O系统(Raid 0) I/O • 对于Fluent、CFX、LS-Dyna等程序 – 并行效果好 • 能够在集群环境下并行到超过128个cpu – 以双路服务器性价比最高 – 对内存的需求不强烈 • 通常1 个cpu core配置1GB 内存即可满足需要。 – 对本地交换硬盘性能要求不高 • 一般采用SCSI/SATA硬盘即可 – 采用高速互联设备可以大幅度提高性能 • 以Fluent 为例,8个双路计算节点时采用Infiniband 互联设备 的性能会比千兆以太网好50%以上。 – Linux 操作系统比Unix 操作系统更加广泛采用,可根据 需要选择Windows • 对于Feko等电磁场程序 – 采用PO/UTD方法,并行效果很好,能够在集 群环境下并行到超过128个cpu – 采用MoM/FMM方法,并行扩展性不高,小于 16cpu – 对内存和I/O的要求比隐式有限元程序还要高得 多 CAE软件可扩展性 • 隐式结构力学 – MSC.NASTRAN – MARC – ANSYS – ABAQUS/Standard • 显式结构力学 – LS-DYNA – AutoDyn – Dytran – ABAQUS/Explicit • 计算流体力学 – Fluent – STAR-CD/HPC – PowerFLOW – CFX – CFD-Fastran • • 计算电磁学 – Feko • 矩量法/FMM < 16cpu • PO/UTD > 128cpu 声学分析 – sysnoise 1.2 哪些硬件可供选择 • 处理器的选择 – AMD Opteron & Intel Xeon • 软件兼容性好,管理方便,成本低,性能较高 – IBM Power & Intel 安腾 • 性能较高但价格昂贵,软件兼容度不高 – 发展趋势 • 双核、四核、多核 • X86和RISC的融合 • 运算加速技术等 • 互联方式的选择 – 千兆以太网,带宽小(理论值125MB/s),延迟 大35--45 µs ; – Myrinet:MPI乒乓测试带宽:230 MB/s,MPI 短消息延迟:7 µs ; – Infiniband;MPI乒乓测试带宽:850 MB/s, MPI短消息延迟:< 7 µs ; 体系结构的选择 • 共享内存结构 – 内存支持统一编址 – 处理器之间通过高 速总线连接 – OpenMP支持 – 内部通信能力强 • 例子 – 曙光A950 – IBM P575 • 集群结构 – 内存无法统一编址 – 计算单元通过网络相 连 – MPI支持 – 内部通信能力较弱 • 例子 – 曙光TC4000 – IBM 1350 SMP or 集群? • SMP服务器适用的地方 – 基于OpenMP/多线程 – 需要大量I/O操作 – Nastran、Ansys、Abaqus、Sysnoise • 集群服务器适用的地方 – – – – 基于多进程 扩展性较好 需要分布式任务 Fluent、CFX、 Ls-Dyna、 FEKO SMP+集群解决方案面临的问题 传统方式 RISC SMP服务器+CISC X86集群 1 2 3 4 RISC SMP服务器价格较为昂贵 最典型的异构平台特征 无法实现统一调度 分立存储方式 ? 2.曙光CAE高性能计算平台 • 完全基于x86-64处理器的平台 • SMP节点和Cluster节点之间可以实现最大 限度的软硬件兼容性 • 采用Infiniband网络进行所有节点之间的高 速连接 • DCAS/DCJM可对系统软硬件资源进行完善 的管理 • SKVM可对系统进行方便的操作、管理和监 控 2.曙光CAE高性能计算平台 A400W图形工作站区 千兆骨干网络 冗余管理/登录节点 Infiniband 计算网络 千兆管理网络 License Server A620 I/O节点 核心光纤存储阵列 A950 SMP节点 TC2600刀片集群 方案特点1 • 一体化:完全基于x86-64平台,整合SMP小型机、 刀片集群、SAN存储以及作业管理软件 LSF Client / LS Client 工作组 - 浏览器/命令行/应用程序集成GUI 千兆骨干网络 管理网络 数 据 通 讯 网 络 A950 SMP 服务器 A950 SMP 服务器 存储双机 管理双机 曙光TC2600刀片集群 Infiniband高速互联 光纤交换机 SAN - 4Gb光纤通道 - 光纤交换机 64个计算节点 - LSF HPC 方案特点2 • 高性能 – 每台SMP服务器天阔A950提供32处理器内核 和256GB以上内存,32*4*2.0G=2560亿次 – 每台TC2600刀片机箱提供80个处理器内核和 64*10GB以上内存,80*4*2.0G=6400亿次 – 10/20Gbps高速Infiniband网络大幅度提升并行 计算性能 – 全4Gb光纤存储网络 方案特点3 • 高可靠 – 管理、IO节点冗余配置 – 网络交换机和光纤交换冗余配置 – 刀片服务器采用全冗余设计 • • • • 电源 风扇 管理模块 交换模块 方案特点4 • 易管理 – SMP节点和Cluster节点之间可以实现最大限度的软硬 件兼容性,降低了管理员的工作难度 – DCAS/DCJM可对系统软硬件资源进行完善的管理 – SKVM可对系统进行方便的操作 举例:内存带宽比较(实测) 数据访问率 • 内存带宽是每秒钟处理器读取或存入内存子系统的数 据量 AMD 皓龙处理器 提供的带 •内存带宽比较 (数据流) 越高越好 宽比2路处理器带宽高 124% •20000 • AMD 集成的内存控制器可以 提供移动大量的应用数据所需 的高内存带宽 •15000 •带宽 •(MB/s) •10000 •5000 •0 •Copy •Scale •Add •Triad •2路至强处理器 5160 (4 •线程) •6185 •6191 •5760 •5865 •2路 AMD皓龙处理器 •Model 2220 SE (4 线程) •13480 •13428 •13179 •13296 •4路 AMD皓龙处理器 •Model 2220 SE (8 线程) •18057 •18018 •18244 •18271 英特尔带宽较低 • 原因在于前端总线瓶颈 计算密集型应用基准测试 --流体力学性能 Fluent性能测试 计算密集型应用基准测试 --流体力学性能 Fluent加速比测试 计算密集型应用基准测试 --LSDYNA性能 计算密集型应用基准测试 --LSDyna机群性能 高速Infiniband网络 Number of Clusters Top500 Interconnect Trends 260 240 220 200 180 160 140 120 100 80 60 40 20 0 Growth rate from June 06 to Nov 06 – – – – InfiniBand Myrinet Jun-05 Nov-05 Quadrics Jun-06 InfiniBand: +105% Myrinet: -10% Quadrics: 0% GigE: -16% GigE Nov-06 • InfiniBand is the only growing high speed interconnect – 105% growth from June 2006 – 173% growth from Nov 2005 • Clusters continue to dominate with 72.2% of the Top500 list 1.5 to 2X Faster Run Times with InfiniBand 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 3.5 Parallel Speedup Parallel Speedup Small-car rigid pole (WPI rp_lsd93) LS-Dyna InfiniBand 3 2.5 2 1.5 1 1 2 3 4 5 6 7 Number of dual nodes 8 1 2 3 4 5 6 7 Number of dual nodes 8 MPI/TCP/Eth MPI/TCP/IPoIB MPI/Verbs SMP小型机服务器A950 5U机架式高端小型机服务器 CPU:8*AMD Opteron 8000系列双核,支持四核 内存:最大256GB Registered ECC DDRII 667MHz 硬盘:8*73GB 3.5英寸SAS硬盘,128MB Raid 网卡:3*1000M 电源:3+1冗余电源 操作系统:Linux、Windows GbE C0 MCP55 Pro 2200 C1 C0 C1 1MB L2 1MB L2 1MB L2 1MB L2 System Request Interface System Request Interface XBAR Quad Core Ready XBAR Memory Controller HT0 HT1 HT2 HT0 HT1 Memory HT2 Controller HT0 HT0 HT1 HT2 Flopy 2050 Memory Controller HT 1 HT2 XBAR System Request Interface 1MB L2 1MB L2 Memory Controller ATA XBAR System Request Interface 1MB L2 1MB L2 PCI-E X16 C0 1 PCI-E X16 (Linker X4) C1 C0 C1 PCI-E X16 80Gb/s C0 16*16/1024MHz HT C1 C0 1MB L2 1MB L2 System Request Interface System Request Interface XBAR Memory HT0 HT 1 Controller XBAR HT2 XBAR System Request Interface 1MB L2 1MB L2 C0 C1 HT0 HT1 Memory HT2 Controller HT0 HT1 HT2 Memory Controller XBAR System Request Interface 1MB L2 1MB L2 C0 GbE 4*SATA II C1 1MB L2 1MB L2 Memory Controller HT0 HT1 HT2 1 PCI-E X16 (Linker X4) C1 A950r-F 系统架构 USB 2.0 32bit-PCI Intel 82541PI VGA