面向大数据异构系统的神威并行存储系统

合集下载

超级计算机的高性能存储系统设计

超级计算机的高性能存储系统设计

超级计算机的高性能存储系统设计随着科学技术的不断发展,超级计算机在各个领域发挥了重要的作用。

超级计算机的高性能是实现这一切的关键所在,而高性能存储系统在其中则扮演着重要的角色。

本文将从高性能存储系统的设计角度出发,分析超级计算机的存储系统设计的要点和挑战。

首先,高性能存储系统的设计应该能够满足超级计算机对高速数据传输和存储容量的需求。

超级计算机通常处理大量的数据和复杂的计算任务,因此存储系统需要能够处理大规模的数据,并快速地回应计算节点的请求。

同时,存储系统应具备高速的数据传输能力,以尽量减少计算节点等待数据的时间。

为了满足这些需求,可以采用并行存储系统的设计,通过多个存储节点和高带宽网络连接它们,以提高整个存储系统的处理能力和传输速度。

其次,高性能存储系统的设计需要考虑数据的可靠性和容错能力。

由于超级计算机通常需要长时间运行复杂的计算任务,存储系统中的数据应该能够保证不丢失或损坏,以避免计算结果的错误。

为了实现数据的可靠性,可以采用数据冗余技术,将数据分散地存储在多个存储节点上,并通过冗余检验码来纠正或恢复数据错误。

此外,还可以借鉴分布式文件系统的设计思想,将数据划分为多个块,并在多个存储节点上分别存储这些块,以提高数据的可靠性和容错能力。

另外,高性能存储系统的设计还需要考虑数据的高效管理和访问方式的优化。

超级计算机处理的数据量庞大,管理这些数据需要有合理的策略和机制。

首先,需要制定存储策略,根据数据的访问模式和特点,决定数据的存储位置和迁移方式,以提高数据访问的效率。

其次,可以采用存储层次结构的设计,将数据按照不同的访问频度和速度需求划分为不同的层次,并选择合适的存储介质和访问方式,以提高整个存储系统的性能。

此外,高性能存储系统的设计还需要关注能源效率和可扩展性。

随着计算任务的不断增加,存储系统需要具备较高的可扩展性,能够根据需求灵活地扩展存储容量和处理能力。

为了提高能源效率,可以利用硬件和软件的优化来降低存储系统的功耗。

面向神威·太湖之光的国产异构众核处理器OpenCL编译系统

面向神威·太湖之光的国产异构众核处理器OpenCL编译系统
2第01481年卷1 0第月10期
CHINE计S E JO算U RN A机L O F学CO M P报UTERS
Vol.41OctN.o2.011 80
面向神威·太犗湖狆犲之狀犆光犔的编国译产系异统构众核处理器
伍明川1),2) 黄 磊1) 刘 颖1) 何先波3) 冯晓兵1) 1)(中国科学院计算技术研究所计算机体系结构国家重点实验室 北京 100190) 2)(中国科学院大学 北京 100049) 3)(西华师范大学计算机学院 四川南充 637009)
3)(犆狅犿狆狌狋犲狉犛犮犺狅狅犾ቤተ መጻሕፍቲ ባይዱ犆犺犻狀犪犠犲狊狋犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔,犖犪狀犮犺狅狀犵,犛犻犮犺狌犪狀 637009)
犃犫狊狋狉犪犮狋 Inrecentyears,withthetremendousdevelopmentoftheintegratedcircuittechnology, itispossibletointegratemultipleprocessorcoresonasinglechiptoaccomplishmorecomplex andlargecomputationaltasks,andtheprocessorarchitecturehasevolvedfromsinglecoreto multicoreandmanycore.However,thereisalsoabottleneckinimprovingperformanceby meansofblindlyincreasingthecoresofsametypeprocessors.Tofurtherenhancethecomputing power,therehasbeenatrendtowardsheterogeneoussystemarchitecture,whichcanprovide morepowerfulcomputingpowerandbetterperformancetopowerratio.Ithasbecometheindustry consensusthattheprogrammingmodelisoneofthebottlenecksrestrictingthedevelopmentof heterogeneoussystems.TheSunwayTaihuLightsupercomputeristheworld’sfirstsystemwith apeakperformancegreaterthan100PFlops,equippedwithahomegrownheterogeneousmanycore SW26010CPUthatincludesboththemanagementprocessingelementsandcomputingprocessing

存储HCIP试题库(附参考答案)

存储HCIP试题库(附参考答案)

存储HCIP试题库(附参考答案)一、单选题(共40题,每题1分,共40分)1、以下关于 OceansStor9000 硬件特点描述错误的是:A、当 OceanStor 9000 组网中采用 IB 交换机时,服务器选配 2 端口IB 网卡,提供 2 个 40GE QSPP+以太网光接口,用于连接到 IB 交换机。

B、所有类型的存储节点都支持在 0 号槽位插入一块 SSD 盘作为读cache 来提升系统读性能。

C、P25 是一款高度为 2U 的高性能存储节点设备,应用于 OPS 密集型应用场景,有 25 个前置业务硬盘槽位和 2 个后置 2.5 英寸操作系统硬盘槽位。

D、C72 是一款高度为 4U 的大容量归档节点设备,应用于大容量应用场景,有 72 个业务硬盘槽位和 4 个操作系统硬盘槽位。

正确答案:B2、关于远程复制分裂,下列说法正确的是哪项?A、只能在主端阵列上执行分裂B、主端阵列上执行分裂后,需要再对从端阵列执行分裂C、主从端阵列上都可以执行分裂D、只能在从阵列上执行分裂正确答案:C3、有关 Simpana 的全局重删,下列说法正确的是哪一项?A、全局重删策略可以被多个重删策略引用。

B、在创建子客户端时可以选择全局重删作为存储策略。

C、全局重删和并行重删不能同时使用。

D、可以修改已存在的存储策略为全局重删。

正确答案:A4、下列哪个选项不是云存储的典型应用场景:A、政务云B、私有云C、警务云D、运营云正确答案:B5、下面关于 eReplication 的描述不正确的是:A、eReplication 是一款华为技术有限公司开发的容灾业务管理软件套件。

B、eReplication 是一款华为技术有限公司开发的备份业务管理软件套件。

C、eReplication 支持可视化管理,保护组和恢复计划的执行状态一目了然。

正确答案:B6、在Simpana 软件中,包括以下组件1MediaAgert 2CommServe 3iDataAgent下面关于升级组件顺序的描述正确的是A、3->1->2B、1->2->3C、1->3->2D、2->1->3正确答案:D7、在 Oceanstor 9000 中,对 WushanFS 全局缓存技术理解错误的是哪一项A、某一节点缓存中的数据不能被其他节点的读写业务命中B、全局缓存技术有助于提升节点内存资源共享C、WushanFS 中的 Global Cache 将所有存储服务器上的内存空间在逻辑上组成一个整体内存资源池D、WushanFS 利用分布式锁实现全局缓存数据管理,同一业务数据只在某个节点缓存一份,当其他节点需要访问该数据时,通过申请锁,获取该缓存数据正确答案:A8、以下关于 Oceanstor 9000 的物理分域描述错误的是哪一项?A、物理分域是一种隔离故障的有效手段B、Oceanstor 9000 通过节点池与分级的方法来实现物理分域C、管理员最少要将 2 个存储节点加入一个分域中D、某些节点故障,会造成与这些节点在一个物理分域内的其他节点上的数据的可靠性级别降低正确答案:C9、关于合成全备份以下说法错误的是哪一项?A、在备份服务器或介质服务器上,根据先前的全备份和其它增量或差异备份,合并生成全备份。

神威E级超算原型机正式启用,核心器件全部为国产化

神威E级超算原型机正式启用,核心器件全部为国产化

神威E级超算原型机正式启用,核心器件全部为国产

 运算速度达每秒百亿亿次的E级计算机,被称作“超级计算机界的下一顶皇冠”。

国产超算研制向着这一皇冠又迈进了一步:神威E级超算原型机在国家超级计算济南中心完成部署,并正式启用。

 神威E级超算原型机,由国家并行计算机工程技术研究中心联合国家超级计算济南中心等团队,经过两年多的关键技术攻关与突破,最终成功研制并部署投用。

这一原型机系统,主要由硬件、软件和应用三大系统组成。

其处理器、网络芯片组、存储和管理系统等核心器件全部为国产化。

 这一原型机的系统软件,由完全自主研发的神威睿思操作系统、神威睿智编译器等构建。

运算系统全部采用“神威26010+”众核处理器,高速互连网络系统全部采用申威网络交换芯片、申威消息处理芯片,这些关键部件均具备完全自主知识产权。

存储和管理系统由申威多核处理器构建,实现对该领域产品的国产化替代。

 据研制团队介绍,在多态融合计算体系结构、新一代申威众核处理器、软件定义海量存储、高效供电和强化相变冷却等方面,神威E级超算原型机均实现了重大突破。

同时,研制团队在国产超算上构建了人工智能软件生态链,开展多个大规模人工智能应用。

曙光ParaStor300S并行分布式云存储系统产品技术白皮书V1.6

曙光ParaStor300S并行分布式云存储系统产品技术白皮书V1.6

曙光ParaStor300S并⾏分布式云存储系统产品技术⽩⽪书V1.6信息技术的发展带来数据的爆炸性增长,⽏庸置疑,我们已经全⾯跨⼊⼤数据时代,PB 规模的⾮结构化数据越来越常见,如何有效地管理这些数据,并进⼀步发掘数据价值,已成为IT 管理者所必须重视的问题。

同时⼤数据4V 特性也对存储系统的⼤容量、⾼性能、易扩展、易⽤性等提出了更⾼要求。

传统的SAN 和NAS 存储架构已经难以满⾜海量数据的密集型I/O 并发访问需求。

ParaStor300S 并⾏分布式云存储系统,是在曙光公司近10年来海量数据存储与处理的基础之上,针对⼤数据时代的特点,全新设计并全⾯优化的⾼端存储系统。

产品定位集群⽂件/对象统⼀存储基于曙光完全⾃主研发的并⾏分布式软件ParaStor 构建的集群存储系统,对外统⼀提供多种存储协议:提供⽂件存储服务,包括Linux POSIX 、NFS 、SMB 、FTP 等,满⾜Windows 、Linux 、Unix 等异构平台的不同访问需求;提供对象存储服务,兼容Amazon S3接⼝,满⾜云⽣态的应⽤需求。

特别地,同⼀集群可以同时提供⽂件/对象接⼝,访问⽅式更为灵活。

Scale-Out 横向扩展的并⾏架构基于服务器构建的并⾏分布式存储系统,对外提供单⼀的命名空间。

⽀持3~4096节点的弹性⽆缝扩展,单⼀存储空间容量可扩展⾄EB 级。

具备超强的横向扩展能⼒,只需简单地增加存储节点,即可获得更⼤的存储容量和更多的数据通道,从⽽获得更⾼的系统聚合带宽和I/O 性能。

⾯向海量⾮结构化数据存储场景 ParaStor300S 并⾏分布式云存储系统适⽤于存在数据共享需求的多种应⽤领域,如⾼性能计算、⽣物信息、⽓象预报、环境监测分析、地震监测、能源勘探、卫星遥感、视频监控、媒资管理、视频编辑处理等,可以⼴泛应⽤于政府、教育、科研、医疗、⽯油、⼴电、企业等⾏业。

ParaStor300S 并⾏分布式云存储系统新⼀代⾃主研发的海量⾮结构化数据存储 EB 级共享空间3~4096节点单⼀命名空间按需分配,在线扩容多种访问协议 ? Linux POSIXNFS/CIFS/FTPS3多款硬件平台2U12、4U24、4U36SATA/SAS/SSD 混插智能存储策略SSD 读缓存加速细粒度配额管理多重数据保护2~4副本N+M:b 纠删码快照全冗余设计,⽆单点故障简易运维管理多套集群统⼀管理资源、状态实时监控邮件、短信、SNMP 告警系统架构 ParaStor300S 并⾏分布式云存储系统(下⽂简称为ParaStor300S )的整体逻辑架构如图 1所⽰:NFS CIFS FTP 硬件节点层数据处理层应⽤协议层存储节点池Node Node …...Node Node Node …...Node 存储节点池Node Node …...Node Node Node …...NodePOSIX S3UNIX/LINUX Windows 图 1 系统架构ParaStor300S 基于服务器构建,多个节点构成硬件资源池;数据处理层将硬件资源池统⼀管理,对外提供单⼀的命名空间;通过POSIX 、集群NAS (NFS 、CIFS 、FTP )、S3等协议供上层应⽤访问。

神威·太湖之光超级计算机

神威·太湖之光超级计算机
神威·太湖之光超级计算机
文/段 芳 1997 年,世界上首台万亿次超级计算机在美国圣地亚国家实验室落户,2016 年,十亿亿次 超级计算机“神威·太湖之光”问世。短短 20 年间,超级计算机单台性能整整提高了 10 万倍。“神 威·太湖之光”超级计算机的最大特点就是运算速度快,其整机系统峰值性能可达每秒 12.5 亿亿次, 它 1 分钟的计算能力相当于全球 72 亿人同时用计算器不间断计算 32 年。计算性能、持续性能和 性能功耗比这三项关键指标在系统发布时均居世界前列。 “神威·太湖之光”超级计算机采用基于高密度弹性超节点和高流量复合网络的高效能体系 结构,由运算系统、网络系统、外围系统、维护诊断系统、电源系统、冷却系统和软件系统组成。
软件系统
由国产众核 CPU 基础软件、并行操作系统环境、 高性能存储管理系统、并行语言及编译环境、并行开发 环境等部分组成。
45
超算能干什么
超级计算机,简称超算,是指能够执行一般 个人电脑无法处理的大资料量与高速运算的电 脑。其基本组件与个人电脑无太大差异,但规格 与性能则强大许多,是一种超大型电子计算机, 具有很强的计算和处理数据的能力,主要特点表 现为高速度和大容量,配有多种外部和外围设备 及丰富、高效的软件系统。现有的超级计算机运 算速度大都可以达到每秒 1 太 ( 万亿 ) 次以上。
拟”,获得了国际高性能计算应用领域最高奖—— “戈登·贝尔”奖。这是基于“神威·太湖之光” 超级计算机的应用第二次拿下该奖。“戈登·贝 尔”奖更注重高性能计算应用水平,被誉为“超 级计算领域的诺贝尔奖”。此次获奖的“非线性 大地震模拟”首次实现了对唐山大地震发生过程 的高分辨率精确模拟,准确地实现了对地震发生 过程的重现与预测。这对未来地震灾害救援演习、 预防预测及合理规划地震高发区的各项设施等都 有重要意义。

“神威·太湖之光”超级计算机

“神威·太湖之光”超级计算机

龙源期刊网
“神威·太湖之光”超级计算机
作者:
来源:《信息化建设》2016年第12期
成果发布人、清华大学教授、国家超级计算无锡中心主任杨广文:“下一步,超算中心将围绕国家重大需求和国际需求,开展高性能计算应用和计算任务,共同来为世界科技的创新做出更多工作。


计算、理论研究、试验科学并称为探索未知世界的三大科技手段,而超级计算机是计算不可或缺的重要技术。

“神威·太湖之光”采用全国产综合处理器,是世界首台性能超过10亿亿次并行规模超千万核的划时代的新型超级计算机。

“神威·太湖之光”的亮点有四个:一是性能指标世界第一,它采用高密度超节点和复合网
络结构,软硬件容错机制,面向科技应用和机器的编译进化技术,实现系统高效运行,系统12.5亿亿次,持续性能9.3亿亿次;二是结构和性能领先的处理器。

该处理器采用自主知识产权的申威指令集和片上融合异构众核架构,构建片上众核多维并行数据通信和层次化存储体系,有效解决众核处理器“通信墙”和“存储器墙”的问题,峰值单核性能超过3万亿次;三是高效能的低功耗设计。

系统从全机水冷、直流供电、资源管理等多个方面建立了从芯片、系统到应用多层次的低功耗设计方案以及控制体系,系统的性能比是每瓦60.5亿次,比世界上现有
其他的超级计算机节能60%以上;四是能够支持千万核应用的系统开发、优化、可运行。

神州云科分布式文件和大数据存储DCN NCS DFS2000系列

神州云科分布式文件和大数据存储DCN NCS DFS2000系列

连接(包含双数 连接(包含双数据
据速率 (DDR) 速率 (DDR)
链路)
链路)
2 个 InfiniBand 连接(包含双数 据速率 (DDR)
链路)
2 个 InfiniBand 连 2 个 InfiniBand 连 2 个 InfiniBand 连
接,支持 DDR 和 接,支持 DDR 接,支持 DDR 和
数据加密选项:
FIPS 140-2 2 级经验证的自加密驱动器 (SED),包含指定给每个驱动器的唯 一 AES-256 位加强密钥
安全性:
文件系统审核功能,可提高存储基础架构的安全和控制并满足法规遵从性要求
效率:
SmartDedupe 重复数据消除选项,可减少存储需求达 35%
协议支持:
NFS v3(UDP 或 TCP)、SMB v1、HTTP、FTP、NDMP、SNMP、 LDAP、ADS、NIS、HDFS
QDR 链路
链路
QDR 链路
非易失性 RAM (NVRAM) 512 MB
512 MB
512 MB
2 GB
512MB
2 GB
100v 时的典型功耗
800 瓦
400 瓦
800 瓦
N/A
450 瓦
425 瓦
240v 时的典型功耗
720 瓦
408 瓦
720 瓦
700 瓦Leabharlann 456 瓦425 瓦
典型热额定值
2,500 BTU/ 小时 1,370 BTU/ 小时 2,500 BTU/ 小时 2,400 BTU/ 小时 1,550BTU/ 小时 1,500 BTU/ 小时
CPU 类型
Intel® Xeon® 处理器

国产超级计算机实现10万核FDTD并行计算

国产超级计算机实现10万核FDTD并行计算

国产超级计算机实现10万核FDTD并行计算江树刚;林中朝;张玉;魏兵;赵勋旺【摘要】The massively parallel Finite‐Difference Time‐Domain(FDTD) computation using 100000 CPU cores is firstly implemented . Test results show that the parallel efficiency can reach up to 65% on 10 240 CPU cores with 128 CPU cores as the benchmark . The research results in this paper indicate that the complicated electromagnetic problems can be solved accurately and efficiently using the method on the home‐made supercomputer platform .%结合国产超级计算机研制中软件能力不足的现状,研究了超大规模并行时域有限差分法,实现了10万核的并行时域有限差分法计算。

以128CPU核为基准,在10240 CPU核时,该算法的并行效率可以达到65%以上。

该文的研究结果表明,并行时域有限差分法可准确有效地在国产超级计算平台上解决复杂超电大电磁工程问题。

【期刊名称】《西安电子科技大学学报(自然科学版)》【年(卷),期】2015(000)005【总页数】6页(P86-91)【关键词】并行算法;10万核;时域有限差分法;计算电磁学【作者】江树刚;林中朝;张玉;魏兵;赵勋旺【作者单位】西安电子科技大学天线与微波技术重点实验室,陕西西安 710071;西安电子科技大学天线与微波技术重点实验室,陕西西安 710071;西安电子科技大学天线与微波技术重点实验室,陕西西安 710071;西安电子科技大学物理与光电工程学院,陕西西安 710071;西安电子科技大学天线与微波技术重点实验室,陕西西安 710071【正文语种】中文【中图分类】TN820时域有限差分法(Finite-Difference Time-Domain,FDTD)由文献[1]提出后,经过40多年的发展,已逐渐成为一种应用广泛的电磁算法,其包括辐射天线分析、目标的雷达散射截面计算以及周期结构分析等[2-3].然而,当FDTD算法用来计算电大尺寸目标的电磁问题时,限制于其Courant稳定性条件[2],为了保证足够的计算精度,需要的Yee网格量很大,此时巨大的内存资源和计算时间消耗成为了该算法的限制因素.为了解决这个问题,一种有效的途径就是采用并行FDTD算法[4].对基于并行接口(Message Passing Interface,MPI)环境的并行FDTD算法,不同的虚拟拓扑会对程序的并行性能带来不同程度的影响,尤其是在大规模并行计算时,一个较优的虚拟拓扑能够节省计算时间.也有相关文献对虚拟拓扑的选取进行了研究[5-6],但所使用的CPU核数都比较小.文献[5]所使用的CPU最大核数为128核,运行环境为刀片服务器.在这种情况下所得出的虚拟拓扑选取规律,并不一定适用于跨节点的超级计算机集群.因此,笔者前期在某计算中心的通用计算机平台上,对虚拟拓扑的优化选取准则进行了研究[7].文中的电磁问题计算中同样遵循这一准则.随着当今计算机软硬件的飞速发展,大型计算机集群为大规模复杂电磁问题的解决提供了可能.近年来,国内外关于并行FDTD算法的研究工作也有很多的相关报道[8-13],其中,文献[13]成功测试了并行规模为4 000 CPU核的FDTD算法.尽管关于并行FDTD算法的此类研究很多,但超过10 000,甚至100 000 CPU核的研究文献极少.随着计算规模的不断增大,在长时间的计算过程中,算法的可扩展性、各个进程间的通信量和计算机节点的稳定性问题成为制约更多的CPU核并行运算的重要因素.在前期工作中,已经在通用计算机平台上对该并行FDTD算法成功进行了移植、验证和测试工作,并取得了一定的工程应用成果[14-15].但对于纯国产计算机,由于其编译器等环境都是针对国产CPU的架构自主开发的,与通用计算机平台的环境存在着较大的差异,且在纯国产超级计算平台中对电磁应用领域进行相关的研究工作具有更高的安全性.因此,在国产计算机中对自主开发的并行FDTD算法程序进行移植和测试显得尤为重要.微带天线阵的仿真是天线仿真的一个重要方面,相比于矩量法,FDTD算法对于较高相对介电常数的微带天线阵具有优势,可以使用较少的计算资源和计算时间来对其进行仿真.笔者在具有纯自主知识产权的“神威蓝光”超级计算机上对并行FDTD算法进行了移植验证工作,并成功通过了100 000 CPU核的测试.文中简单介绍了FDTD并行算法和“神威蓝光”超级计算平台.通过与矩量法计算结果的比较,说明文中算法的准确性,并测试了FDTD并行算法从128到10 240 CPU核下的并行性能.最后,计算了大型微带天线阵列(具有3 000多单元)的辐射特性以及电大飞机的散射特性.文中的研究成果表明,并行FDTD算法和国产巨型机相结合,可以对超电大尺寸问题进行精确的电磁仿真.采用Yee网格(如图1(a)所示)对麦克斯韦旋度方程差分离散,可以获得FDTD算法的递推计算式[2],以电场的x分量为例,则有在FDTD并行算法中,对于任意一个场量的迭代,都需要用到与它相邻的场量,当迭代进行到并行计算子区域交界处的场量时,必须进行场量信息的传递,也只有交界处的场量计算才需要信息传递,各子区域中的场量是不需要传递的,正因为如此,FDTD算法很适合于并行计算.而FDTD算法的并行运算,概括起来,就是将整个FDTD算法的计算区域划分为若干个子区域,每个进程计算其中的1个或者多个子区域,各个进程之间通过传递交界面上的电磁场量以确保FDTD算法的场值求解能够进行下去.如图1(b)所示,FDTD算法的单进程多数据(Single Program Multiple Data,SPMD)并行模型中,每个进程都执行相同的程序[4].这里使用的计算平台为“神威蓝光”超级计算机.经国家权威机构测试,“神威蓝光”超级计算机系统持续性能为0.796 PFlops(千万亿次浮点运算/秒), LINPACK效率为74.4%,性能功耗比超过741 MFlops/W(百万次浮点运算/秒瓦).“神威蓝光”超级计算机共包含8 704个“申威SW1600”处理器(其结构框图如图2所示),每个处理器包含16核心,峰值性能为128 GFlops,内存为16 GB,访存带宽达到102.4 GB/s,高速计算网络接口带宽为40 GB/s,以太网接口带宽为1 GB/s.处理器CPU为SW1600 64 bit 16核心,主频为1.0~1.1 GHz.I/O聚合带宽为200 GB/s.网络系统为InfiniBand QDR,链路速率为40 GB/s,聚合带宽为69.6TB/s.操作系统为“神威睿思”并行操作系统.编程语言环境包括C、C++、Fortran、Java、MPI、Open MP.文中所使用的“神威蓝光”超级计算机中的最大核心数为100 000.3.1 准确性验证以包含14个伞形印刷振子单元的天线阵列为例,来验证该算法的准确性.天线阵列仿真模型如图3(a)和图3(b)所示,其中,介质板的相对介电常数εr=10.2,天线的工作频率为2.5 GHz,整个计算区域的网格大小为d x=d y=d z=0.2 mm,总的迭代时间步为10 000步.采用并行FDTD算法计算该天线阵列的辐射方向图,并与矩量法的计算结果进行对比,如图3(c)~图3(f)所示.对比结果显示,两者在3个主平面内吻合良好,表明该算法可以准确地解决包含复杂结构的电磁问题.3.2 并行规模及性能测试以具有288个伞形印刷振子单元的天线阵列为例,采用并行FDTD算法在纯国产超级计算机上对该阵列的辐射特性进行计算,仿真模型如图4(a)所示.采用的CPU核数为100 000,测试的总网格数为1 550× 1 920×625=1 860 000 000(约18亿),虚拟拓扑选取为50×80×25.该模型在“神威蓝光”超级计算机上成功通过了100 000 CPU核的测试.该天线阵列的三维辐射方向图如图4(b)所示.同时,还对算法的并行效率进行了测试,测试选取的参数及所需时间如表1所示.相比于其他相关报道[5-6,13],由测试结果可以看出,对于CPU核数跨度如此大的情况下,以128 CPU核为基准,该算法在10 240 CPU核时的并行效率仍可达到67%,这表明该并行算法程序具有良好的并行性能.3.3 大型微带天线阵列的辐射特性以一个包含3 480个单元的微带天线阵列为例,来证明文中算法的优势所在.天线阵列的仿真模型如图5(a)所示,其中,天线单元为矩形贴片微带天线,贴片的尺寸为30.16 mm×22.71 mm,天线阵列的尺寸为6 029.4 mm×977.76 mm×3 mm,介质板的相对介电常数εr=4.5.天线的工作频率为3 GHz.计算选取的网格大小dx=0.2 mm,d y=0.1 mm,d z=1.5 mm,总的计算网格为30 208×9 840×52(约154亿),消耗内存约为2 000 GB.在国产“神威蓝光”超级计算机上选用10 240核对该微带天线阵的辐射特性进行计算.对于具有3 000多个单元的大规模微带天线阵列,相比矩量法(几乎不可能仿真计算出其整体解),该算法在计算时间及资源消耗上都拥有极大的优势.该微带天线阵列的辐射方向图如图5(b)~图5(c)所示. 3.4 某飞机的散射特性在国产“神威蓝光”超级计算机上选用10 240核分析计算了某飞机的散射特性.飞机的模型如图6(a)所示.入射波的频率为900 MHz,入射方向为面向机头方向入射,极化方向为+z.整个计算区域的网格大小为d x=d y=d z=0.005 m,总网格数为3 840×2 768×864(约91亿网格),消耗内存约为1 200 GB.该飞机模型雷达散射截面如图6(b)和图6(c)所示.采用并行FDTD算法,以具有复杂结构的伞形印刷振子天线阵为例,验证了该算法可以准确解决包含复杂结构的电磁问题.以具有288个单元的伞形印刷振子天线阵列为模型,该并行算法在“神威蓝光”超级计算机上首次成功突破100 000 CPU核,表明了该算法具有极好的可扩展性.并以128核为基准,测试了该算法的并行性能.测试结果显示,CPU核数由128扩大到10 240时,该算法的并行效率依然可以达到67%,表明该算法具有良好的并行性能.对某具有3 000多单元的大型微带天线阵列的辐射特性和某飞机的散射特性的成功仿真计算,体现了该并行FDTD算法的优势所在.笔者研究探索工作的成功实施,为在纯国产超级计算机上采用自主开发的电磁算法解决系统级电磁仿真问题提供了可能.【相关文献】[1]Yee K S.Numerical Solution of Initial Boundary Value Problems Involving Maxwell Equations in Isotropic Media[J]. IEEE Transactions on Antennas andPropagation,1966,14(3):302-307.[2]葛德彪,闫玉波.电磁场时域有限差分方法[M].3版.西安:西安电子科技大学出版社,2011.[3]Taflove putational Electrodynamics:the Finite-difference Time-domainMethod[M].Norwood:Artech House, 2000.[4]张玉.电磁场并行计算[M].西安:西安电子科技大学出版社,2006.[5]雷继兆,梁昌洪,张玉.并行FDTD结合服务器分析电大电磁问题[J].西安电子科技大学学报,2009,36(5):846-850. Lei Jizhao,Liang Changhong,Zhang Yu.Solving Electrically Large EM Problems Using Parallel FDTD and HP Blade Server[J].Journal of XidianUniversity,2009,36(5):846-850.[6]He Z L,Huang K,Zhang Y,et al.Study on High Performance of MPI-based Parallel FDTD from Work-station to Super Computer Platform[J].International Journal of Antennas and Propagation,2012,2012:1-7.[7]Jiang S G,LüZ F,Zhang Y,et al.Analysis of Parallel Performance of MPI Based Parallel FDTD on Supercomputer [C]//IET Conference Publications.Stevenage:Institution of Engineering and Technology,2013:1-4.[8]Guo X M,Guo Q X,Zhao W,et al.Parallel FDTD Simulation Using NUMA Acceleration Technique[J].Progress in Electromagnetics Research Letters,2012,28:1-8.[9]徐磊,徐莹,蒋荣琳,等.GPU集群上的三维UPML-FDTD算法的实现及优化[J].计算机工程与科学,2013,2013 (11):160-167. Xu Lei,Xu Ying,Jiang Ronglin,et al.Implementation and Optimization of Three-dimensional UPML-FDTD Algorithm on GPU Cluster[J].ComputerEngineering and Science,2013,2013(11):160-167.[10]张立红,余文华,杨小玲.加速并行时域有限差分仿真的新方法[J].电波科学学报,2012,27(1):56-60. Zhang Lihong,Yu Wenhua,Yang Xiaoling.New Acceleration Technique for Parallel FDTD Simulation[J].Chinese Journal of Radio Science,2012,27(1):56-60.[11]Wang J,Yin W Y,Xia Y S.A Novel Conformal Surface Current Technique for Large Problems Based on Highperformance Parallel FDTD Method[J].IEEE Antennas and Wireless Propagation Letters,2013,12:11-14.[12]Hemmi T,Costen F,Garcia S,et al.Efficient Parallel LOD-FDTD Method for Debye-dispersive Media[J].IEEE Transactions on Antennas and Propagation,2014,62(3):1330-1338.[13]Yu W H,Yang X L,Liu Y J,et al.A New Direction in Computational Electromagnetics:Solving Large Problems Using the Parallel FDTD on the BlueGene/L Supercomputer Providing Teraflop-level Performance[J].IEEE Antennas and Propagation Magazine,2008,50(2):26-44.[14]江树刚,张玉,赵勋旺,等.并行FDTD分析机载超短波天线[C]//2013年全国微波毫米波会议论文集.北京:电子工业出版社,2013:211-214.[15]Jiang S G,Wei B,Zhang Y.Analysis of Near-field Characteristic of AirborneAntenna[C]//Cross Strait Quad-regional Radio Science and Wireless Technology Conference.Washington:IEEE Computer Society,2013:160-162.。

大规模异构并行系统高效能调度关键技术及应用

大规模异构并行系统高效能调度关键技术及应用

电网山火风险预警与带电灭火关键技术及应用
主要完成人:陆佳政,薛禹胜,吴传平,徐勋建,王昊 昊,孔昭斌
主要完成单位:国网湖南省电力公司防灾减灾中心,国电 南瑞科技股份有限公司,湖南省湘电试研技术有限公司
针对山火灾害,项目组创造性提出电网山火带电防治的 新思路,发明电网山火定量预测新方法,开发了独特的山火 实时监测新技术,揭示山火带电灭火新原理,国内外首创电 网 防山火 系 列 装 备。他 们 发明了电 网山火 定 量 密度 预 报 方 法;攻克了山火跳闸概率远程分析与电网风险最小化布控技
术;突破了山火广域实时监测与精准救援技术;揭示了水雾 化带电灭火新原理,发明了电网山火带电高扬程灭火技术。 部分成果已规模化生产,转化程度高,在27省市电网公司广 泛应用,成功应对2011年以来1076处电网山火,山火跳闸率 下降90%,同时防止植被大面积烧毁。近3年销售11.7亿元, 利润2.2亿元,增加供电115亿千瓦时,社会安全、经济与生态 环境效益显著。授权发明专利47项、国际专利6项,制定标准 2项,被鉴定为国际领先水平,实现了电网防山火技术跨越式 发展。
大规模异构并行系统高效能调度关键技术及应用
主要完成人:李肯立,唐卓,张大方,陈浩,李仁发,唐小勇 主要完成单位:湖南大学 项目团队立足于高性能计算国际研究前沿,发明了异构 并行环境下的高效能随机任务调度方法,解决将GPU虚拟化 的方法vCUDA,为在GPU上提供通用高性能计算提供了可 能;将并行随机调度方法扩展到云计算环境,发明了一种新 型的云计算资源管理调度技术。在此基础上,他们设计实 现了一 个高 效 能随机并 行 任 务调 度器,在国内多家国家超 级计算中心和主要超级计算机研制单位生产实践中成功应 用,平均节电7%左右,取得了明显的社会效益和经济效益。

大数据环境下的并行存储技术研究

大数据环境下的并行存储技术研究

大数据环境下的并行存储技术研究近年来,随着大数据时代的到来,其对于存储技术的需求也不断增加。

然而,传统的存储技术已经无法满足海量数据的存储和管理需求。

因此,人们开始尝试使用并行存储技术来解决这个问题。

并行存储技术是指将数据分散存储在多个物理存储设备中,通过并行读写的方式实现快速的存取速度。

这种技术的应用可以极大地提高数据存储的效率和性能。

在大数据环境下,为了能够应对海量数据的存储和管理需求,新一代的并行存储技术需要解决以下几个问题:一、高扩展性当数据规模不断增大时,必须能够方便地扩展存储系统的容量和性能。

因此,新一代的并行存储技术需要具备高扩展性。

为解决这个问题,人们将物理存储设备组成集群,使其能够同时访问存储设备中的所有数据,从而提高存储系统的扩展性。

二、高可靠性当存储的数据成为商业关键数据时,存储系统必须具备高可靠性,能够及时恢复故障或系统崩溃时的数据。

因此,新一代的并行存储技术需要具备高可靠性和容错能力。

为了解决并行存储系统中发生故障的问题,人们通过RAID (独立磁盘冗余阵列)技术实现数据备份和恢复功能。

RAID技术将数据复制到多个磁盘中,并自动更换损坏的磁盘,从而提高存储系统的可靠性和稳定性。

三、高性能在大数据环境下,存储系统需要具备高性能和快速的数据传输速度,以满足对海量数据的快速访问和处理。

为了提高数据传输速度,新一代的并行存储技术采用分布式文件系统(DFS)的方式,将数据分散在多个存储设备中,从而实现数据的并行存取和处理。

四、高可扩展性在大数据环境下,存储系统必须具备高可扩展性,能够方便快速的扩展系统的存储容量和性能,以满足数据增长的需求。

为了实现高可扩展性,新一代的并行存储技术采用多级存储结构,将存储设备分成多个级别,利用不同的存储技术来实现不同级别的存储。

总之,大数据时代对存储技术提出了更高的要求。

为了满足这些要求,新一代的并行存储技术应该具备高扩展性、高可靠性、高性能和高可扩展性等特点。

CASES_成功案例汇总

CASES_成功案例汇总

第1章 Essential NAS案例汇总1.1 一汽集团存储系统扩容一汽集团目前生产中心已经构建了一套完整的业务系统,采用DMX1000作为业务系统的存储平台。

随着一汽集团业务系统规模的不断扩大,业务种类的不断增加,生产中心的存储平台容量增加,而且性能要求也随着提高。

为此,我们将为一汽集团设计一套全新的数据集中存储系统,包括HDS Essential NAS文件共享系统和HDS USP V磁盘存储系统,供主业务系统使用。

系统构架图如下:在一汽集团的业务系统中包含有ERP、PDM等核心业务系统,从业务系统角度分析,它们都是基于Oracle数据库运行的,是典型的OLTP类型业务,对系统性能要求较高,主要采用数据块存储方式,为满足其生产的具体需求,建议采用高性能的HDS USP V并配置高性能磁盘用于核心生产。

存储系统升级改造的重点是生产数据从原有的DMX1000上迁移到新购存储系统上,无论采购什么存储系统,数据迁移是不可避免的。

我们推荐的USP V由于具备成熟的存储虚拟化技术,可以最大限度在整合和迁移过程中不影响业务系统运行,确保切换到新存储系统在最短时间的周期内完成。

建议首先考虑将核心ERP、PDM数据迁移到升级存储上来;其它数据可根据条件逐步迁移到升级存储上。

升级的数据中心存储系统应分为三个层次,主机层、网络层和存储层。

而存储层又因为扩容了USP V,可分为生产层、恢复层、保护层、归档层。

主机层:在一汽集团数据中心的业务系统中,主机主要进行信息处理和数据库运行,在主机端安装HBA卡用于建立数据访问通道。

由于主业务系统是典型的OLTP应用,所以应用对数据访问性能的要求非常高,为了满足这一要求,我们建议利用原有主机端安装多块HBA卡,提供多条数据通道,通过安装HDS的数据通道管理软件――HDLM,可以提供多通道之间的流量负载均衡,确保高性能的数据访问。

另一方面,对于生产系统这样关键的系统,链路的安全性需要得到保证,HDLM同样可以提供数据通道之间的失败切换功能。

神威·太湖之光超级计算机

神威·太湖之光超级计算机

神威·太湖之光超级计算机1997年,世界上首台万亿次超级计算机在美国圣地亚国家实验室落户,2016年,十亿亿次超级计算机“神威·太湖之光”问世。

短短20年间,超级计算机单台性能整整提高了10万倍。

“神威·太湖之光”超级计算机的最大特点就是运算速度快,其整机系统峰值性能可达每秒12.5亿亿次,它1分钟的计算能力相当于全球72亿人同时用计算器不间断计算32年。

计算性能、持续性能和性能功耗比这三项关键指标在系统发布时均居世界前列。

“神威·太湖之光”超级计算机采用基于高密度弹性超节点和高流量复合网络的高效能体系结构,由运算系统、网络系统、外围系统、维护诊断系统、电源系统、冷却系统和软件系统组成。

冷却系统电源系统外围系统网络系统运算系统文/段 芳运算系统由32 768个运算节点组成,主要包括处理器、存储器、节点管理控制器、电源供电和接口电路等。

网络系统采用大规模高流量复合网络体系结构,构造了超节点网络、共享资源网络和中央交换网络的三级互连,实现了全系统高带宽、低延迟通信,有效支持计算密集、通信密集和输入/输出(I/O)密集等多类型课题的运行。

外围系统由网络存储系统和外围管理系统组成。

网络存储系统由存储网络和存储磁盘阵列盘阵组成,负责为运算节点提供高速可靠的数据存储访问服务。

外围管理系统由系统控制台、管理服务器和管理网络组成,用以实现系统的管理与服务。

维护诊断系统提供全面的在线维护管理、运行状态与环境监控、故障定位与记录,以及安全保护。

电源系统包括配电、高压整流柜、直流不间断电源、交流不间断电源、机仓板级电源以及相应的电源监控系统,负责向整机各个部分提供稳定、可靠的电力供应。

冷却系统超级计算机运行时会产生巨大的热量,冷却系统帮助其降温,避免因过热而产生不良后果。

“神威·太湖之光”的运算机仓和网络机仓采用间接水冷方式冷却,外围设备采用水风交换方式冷却,电源系统采用强制风冷方式冷却,从而保证整机正常稳定运行。

基于“神威·太湖之光”的数据密集型计算并行优化

基于“神威·太湖之光”的数据密集型计算并行优化

计算通信优化与协同计算策略
计算通信优化
采用高效的通信协议和算法,减少计算节点之间的通信开销,提高系统整体的协同计算能力。
协同计算
将多个计算节点联合起来,协同解决一个大规模的计算问题,充分利用计算资源和加速问题解决进程 。
05
基于“神威·太湖之光”的数据 密集型计算并行优化实验与分析
实验设计
实验目的
计算资源需求
数据密集型计算需要大量 的计算资源,如何满足不 断增长的计算需求是另一 个挑战。
算法优化
针对不同的应用领域,需 要对算法进行优化,以提 高计算效率和准确性。
03
“神威·太湖之光”超级计算机
“神威·太湖之光”的硬件架构
处理器
使用国产申威处理器,采 用64位自主指令集。
架构
基于多核多线程架构,每 个处理器核心都具有独立 的计算和内存单元。
数据压缩与缓存策略
压缩数据
使用压缩算法对数据进行压缩,以减少存储空间和提高传输效率。
缓存数据
将频繁访问的数据存储在高速缓存中,以减少访问时间和提高系统性能。
并行任务调度与负载均衡策略
并行任务调度
使用多线程、多进程等技术将任务分解为多个子任务,并分配到不同的处理单元上执行,以提高处理速度。
负载均衡
基于“神威·太湖之光”的数据密集 型计算并行优化
2023-11-10
目录
• 引言 • 数据密集型计算概述 • “神威·太湖之光”超级计算机 • 基于“神威·太湖之光”的数据
密集型计算并行优化策略
目录
• 基于“神威·太湖之光”的数据 密集型计算并行优化实验与分析
• 结论与展望
01
引言
研究背景与意义
数据密集型计算概述

神威核心理念战略与运营体系

神威核心理念战略与运营体系

神威核心理念战略与运营体系神威核心(神威综合国家超级计算杂志卷)是中国自主研发的超级计算机处理器,是由中国国家深海国家实验室、国家超级计算长期计划和国家高技术研究发展计划的技术攻关项目之一。

神威核心的研发和推广应用标志着中国超级计算机技术的重大突破,是中国在国际超级计算机领域的一次重要向前跨越。

在神威核心的研发过程中,中国国家深海国家实验室借鉴了国际上诸多研究成果,并结合中国国情和发展需求,形成了独特的战略和运营体系,以保证项目的顺利实施和高效运作。

神威核心的战略体系主要包括三个核心要素:技术创新、产业链建设和市场应用。

首先,技术创新是神威核心研发的核心,中国国家深海国家实验室组织了一支由国内外顶尖科研人员组成的团队,致力于超级计算机处理器的设计与优化。

通过自主研发先进的多核处理器结构和高性能计算算法,使得神威核心在性能和能耗的平衡上取得了突破性进展。

此外,中国国家深海国家实验室还积极与国内的高校、科研机构和企业进行合作,共同推动超级计算机技术的创新和应用。

其次,产业链建设是神威核心战略体系的重要组成部分。

中国国家深海国家实验室将神威核心的生产交由中国国内的芯片制造企业负责,同时,组织了一支技术专家团队对产业链进行技术指导和支持,以确保生产过程的顺利进行。

中国国家深海国家实验室还推动了神威核心相关产业的发展,包括超级计算机硬件设备、应用软件和系统研发等。

通过建设完整的产业链,实现了超级计算机自主创新和产业化的良性循环。

最后,市场应用是神威核心战略体系的关键环节。

中国国家深海国家实验室与国内外的高校、科研机构和企业密切合作,推动超级计算机技术在各个领域的广泛应用。

神威核心已经在天气预测、地震模拟、基因组测序等领域取得了重要成果,并开始向国内外市场输出。

中国国家深海国家实验室积极组织了一系列推广活动和合作项目,以推动神威核心的市场化进程,加快中国超级计算机产业的发展。

神威核心的运营体系主要包括四个环节:研发阶段、生产阶段、销售阶段和服务阶段。

异构计算在大数据处理中的应用研究

异构计算在大数据处理中的应用研究

异构计算在大数据处理中的应用研究异构计算是指同时利用多种不同类型的计算资源(如CPU、GPU、FPGA等)来执行计算任务的一种计算模式。

在大数据处理中,异构计算被广泛应用于加速数据处理和提高计算效率。

本文将探讨异构计算在大数据处理中的应用研究。

首先,异构计算可用于加速大规模数据的处理。

在大数据处理过程中,数据量庞大,处理时间长,而传统的计算资源无法满足需求。

异构计算通过利用不同类型的计算资源,如GPU、FPGA等,可以并行处理大规模数据,大幅提高数据处理速度。

具体来说,GPU可用于加速矩阵运算、图像处理等计算密集型任务,而FPGA则适合执行特定的任务,如加密解密、数据压缩等。

通过合理地利用这些计算资源,可以提高数据处理的效率。

其次,异构计算可用于优化大规模数据的存储和管理。

在大数据处理过程中,数据的存储和管理是非常重要的环节。

传统的存储系统如硬盘、固态硬盘等存在存储速度限制,导致数据的读取和写入速度较慢。

异构计算可以利用GPU等计算资源进行数据压缩、索引等操作,提高存储系统的效率。

同时,异构计算还可以通过数据分布算法和存储结构优化算法,减小数据在存储系统中的存储和读取负载,从而提高数据的存储和管理效率。

此外,异构计算还可用于大规模数据的分析和挖掘。

大数据处理中的数据分析和挖掘是非常重要的任务。

异构计算可以利用多种计算资源,如GPU、FPGA等,同时处理不同类型的数据,以提高分析和挖掘的效率。

例如,GPU可以用于加速机器学习和深度学习算法的训练过程,从而加快数据分析和挖掘的速度。

同时,FPGA可用于执行特定的数据处理任务,如图像识别、语音识别等,进一步提高数据分析和挖掘的准确性和效率。

最后,异构计算还可用于大规模数据的可视化。

大数据处理中的数据可视化是帮助用户理解和利用数据的重要手段。

传统的数据可视化工具在处理大规模数据时存在性能瓶颈。

异构计算可以利用GPU等计算资源,通过并行计算和加速算法,加快数据可视化的速度和精度。

麻伟巍并行计算

麻伟巍并行计算

麻伟巍并行计算
摘要:
1.麻伟巍简介
2.并行计算的背景和概念
3.麻伟巍在并行计算领域的贡献
4.并行计算的应用和未来发展
正文:
一、麻伟巍简介
麻伟巍,中国计算机科学家,出生于1962 年,是我国并行计算领域的著名专家。

他毕业于清华大学计算机系,获得博士学位,之后在美国卡内基梅隆大学从事计算机科学研究。

他的研究领域主要集中在并行计算、分布式计算和大数据处理。

二、并行计算的背景和概念
并行计算是一种计算机科学中的计算模型,其目的是通过同时执行多个计算任务,以提高计算速度。

这种模型在处理大规模数据和复杂问题时,具有非常重要的应用价值。

并行计算的概念包括并行处理、并行执行和分布式计算等。

三、麻伟巍在并行计算领域的贡献
麻伟巍在并行计算领域做出了很多贡献,其中最著名的是他参与设计和实现了我国第一台并行计算机“神威·太湖之光”。

这台计算机是我国自主研发的,运算速度在全球超算领域名列前茅。

此外,麻伟巍还发表了大量关于并行
计算的学术论文,为该领域的发展做出了重要贡献。

四、并行计算的应用和未来发展
并行计算在诸多领域都有广泛应用,如天气预报、生物信息学、流体动力学等。

随着大数据时代的到来,对计算能力的需求越来越大,并行计算的重要性也日益凸显。

未来,并行计算将继续向多核处理器、云计算和大数据等领域发展,为人类社会的科技进步提供强大支持。

总之,麻伟巍是我国并行计算领域的杰出代表,他的研究成果为推动我国计算机科学的发展做出了巨大贡献。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面向大数据异构系统的神威并行存储系统何晓斌1, 蒋金虎21 国家并行计算工程技术研究中心,北京1000802 复旦大学计算机科学技术学院,上海200433论文引用格式:何晓斌, 蒋金虎.面向大数据异构系统的神威并行存储系统[J].大数据, 2020,6(4):30-39.HE X B, JIANG J H.Sunway parallel storage system for big data heterogeneous system[J].Big Data Research, 2020, 6(4):30-39.1 引言大数据应用越来越广泛,也在很多方面影响着传统高性能计算(high performance computing,HPC)应用。

大数据与高性能计算相互融合,相互影响,主要体现在以下几个方面:一是异构并行计算应用与大数据应用融合交互;二是异构并行计算向大数据处理方式转变;三是大数据应用融入了高性能异构并行计算模式。

这些新型的融合应用对传统的高性能计算机系统提出了新的要求。

当前,大数据分析框架具有一些吸引人的特性,如容错性和与Hadoop 生态系统的互操作性。

但是,与使用高性能计算工具(如消息传递接口(message passing interface, MPI))编写的本机实现相比,大数据框架中的许多分析操作是低效的或更慢的,在异构系统中,为了更好地发挥异构系统特性,有很多关于异构、存储的并行和优化工作。

为了让大数据框架更好地在高性能计算系统中运行,只需基于MPI实现大数据框架,将大数据计算卸载到MPI,就能达到融合效果。

但将大数据处理的数据访问向高性能计算存储上适配,则存在许多问题,尤其是作为大数据处理系统的关键存储系统,其针对大数据处理的数据访问模式的设计和构建尤为重要。

为了让大数据应用更好地使用高性能计算机系统的存储系统,研究者提出了多种方法,有的针对应用进行了数据访问优化,有的基于网络优化实现了加速,有的通过在高性能计算上重新构建大数据软件栈来实现优化,但从根本上来说,从架构层面构建两级存储模型是一种很好的解决方法。

国产超级计算平台“神威·太湖之光”的并行存储系统为了增强对大数据应用的支持,在支持高性能计算应用的基础上,对设计和架构采用了一系列改造和优化关键技术。

2 背景介绍2.1 “神威·太湖之光”异构系统结构简介“神威·太湖之光”是中国第一台全部采用自主技术构建的超级计算机,也是世界上首台峰值运算速度超过10亿亿次量级的超级计算机。

考虑到面向的应用的复杂性,“神威·太湖之光”计算机系统体系结构引入了融合体系架构,架构的一部分是面向传统高性能计算的高速计算系统,另一部分是面向大数据等新型应用的辅助计算系统,两部分通过高速计算互联网络进行内部和相互之间的高速互联。

系统总体架构如图1所示。

图1 系统架构系统高速计算部分,峰值运算和实测LINPACK性能分别达到了125.436 PFlops和93.015 PFlops,LINPACK系统效率达到了74.153%,系统采用了40 960个64位自主神威指令集的SW26010处理器。

SW26010处理器采用异构众核体系结构,即片上计算阵列集群和并行共享存储相结合的架构,全芯片260核心,芯片标准工作频率为1.5 GHz,峰值运算速度为3.168 TFlops。

SW26010处理器的架构如图2所示。

图2 SW26010处理器的架构存储系统由在线存储系统和近线存储系统组成,如图3所示。

在线存储系统由288台带高速固态驱动器(solid state drive,SSD)的存储服务节点、144台高性能双控制器光纤串行SCSI(serial attached SCSI,SAS)盘阵、8台元数据服务节点组成,负责提供高速可靠的在线数据存储访问服务,I/O聚合带宽达341 GB/s。

近线存储系统由6个元数据服务节点、112个存储服务节点和两台大容量光纤存储区域网络(storage area network,SAN)盘阵组成,提供面向云和用户业务的存储服务。

图3 存储系统组成2.2 高性能计算并发I/O对存储系统的需求高性能计算对存储系统的要求是整体均衡的并发I/O访问,因为高性能计算应用有木桶效应,整体性能受限于最慢的处理过程,所以对于高性能计算中的存储系统而言,最重要的是并发I/O调度的均衡,第二重要的是性能,第三重要的是可靠性。

由于高性能计算节点规模非常庞大,因此常采用多级存储架构,并使用资源分区等技术,以减少全局共享访问。

为了应对如此大的规模,并发I/O调度需考虑多个因素,如资源分区、规模、容错、异常发现等。

调度算法需要对多条I/O分发通路进行判断和打分,以获得最优的均衡性。

在性能上,由于存储与计算之间巨大的鸿沟,对于计算来说,磁盘访问是相当慢速的。

提升性能必不可少的措施就是进行数据缓存,尤其在大规模的高性能异构计算中,提高分布式缓存的有效性和命中率、减少缓存冲突和抖动是关键。

随着SSD技术的发展,在磁盘和内存间增加SSD数据缓存层成为可行方案,而且随着近年来非易失性随机访问存储器(non-volatile random access memory,NVRAM)技术的发展,NVRAM也将成为异构系统缓存层次结构中一个重要部分。

在引入SSD和NVRAM等缓存后,缓存数据空间增大,但随之而来的是层次多、数据一致性管理复杂等问题。

可靠性的设计是一个寻找最优解的过程,可靠性措施多,意味着系统的冗余度更高和处理的复杂度更高,会导致成本上升。

而没有可靠性设计的存储系统,对于高性能计算系统来说是一个噩梦,会导致应用无法连续、稳定地运行到输出结果的那一刻。

2.3 大数据对并行存储系统的需求在大数据处理系统中,最初大数据对存储系统的需求是吞吐量。

大数据存储系统常见的是基于Google文件系统(GFS)或Hadoop分布式文件系统(Hadoop distributed file system,HDFS)的。

GFS最初是为了支持爬行和索引系统而设计的,事实上,关于这个系统的原始文章非常明确地指出:“高持续带宽比低时延更重要。

大多数目标应用程序非常重视以高速度批量处理数据,很少有应用程序对单个读写有严格的响应时间要求。

”但随后证明,事实并非如此。

GFS的单一主控节点设计对于面向批处理的应用程序来说,单点故障可能不是灾难,但对于时延敏感的应用程序(如视频服务)来说,这是不可接受的。

为了弥补单点故障问题,系统后续增加自动故障转移功能。

即使这样,服务也可能会暂停一分钟。

BigTable的出现在这方面有所帮助。

然而,事实证明,BigTable并不完全适合GFS。

事实上,它只是使系统的单一主控节点设计的瓶颈限制比其他情况下的瓶颈限制更加明显。

由于这些原因,谷歌公司的工程师在过去两年的大部分时间里一直致力于开发一个新的分布式主系统,该系统旨在充分利用BigTable来解决一些对GFS来说特别困难的问题。

尽管Hadoop在全世界得到了广泛的应用,但自2009年首次引入HDFS以来, HDFS 在很多方面存在缺点,如它的可用性和安全性差以及可扩展性限制。

虽然Hadoop 2.0在高可用性方面迈出了一大步,但其安全性仍然没有改善。

公司和个人在存储关键数据(如信用卡号码、密码和其他类型的敏感数据)时,系统提供的安全性仍然很差。

目前大数据处理的基本框架是基于MapReduce模型的,其中洗牌(shuffle)阶段是MapReduce的耗时阶段,它经常导致网络过载,中间数据的传输会影响整个过程,进而导致严重的I/O争用。

这个问题需要从大数据处理的基本框架和存储系统两个方面来协同解决,尤其是存储系统,怎样更好地支持大数据应用I/O访问模式是未来的研究重点。

2.4 并行存储系统的挑战为了满足高性能计算和大数据应用对存储系统的需求,“神威·太湖之光”并行存储系统面临的主要挑战如下。

一是大规模I/O访问的服务均衡和质量保证。

系统需设计一个灵活方便、可定制的I/O服务分发层,以便根据存储系统中多条I/O通路的负载和质量进行评估,针对计算节点发起的I/O请求进行动态分发和跟踪调度。

服务分发层的分发算法需要结合发起方请求属性和后端存储系统I/O数据通路质量进行决策。

二是异构计算节点I/O访问的高性能。

系统需要对数据在各个分布式节点上的缓存进行统一调度和管理,需要设计实现分布式数据缓存机制来提升数据访问性能。

在分布式数据缓存机制中,通过多层缓存机制协同,并利用分布式锁机制来保证缓存一致性。

三是大规模并行存储系统的高可用性。

作为高性能计算和大数据处理的数据基础,存储系统的高可用性也至关重要。

在高性能计算系统中,计算分区的节点可以不断重启和更新,但存储系统必须保证持续在线,系统需具有故障容忍和自愈功能。

3 并行存储系统架构在“神威·太湖之光”系统中,由于计算规模极其庞大,如果任由计算节点发出I/O请求而不加以控制,有可能导致上百万的I/O请求同时访问或操作同一数据块,这是不能容忍的情况。

为了应对如此大规模的I/O访问、保证访问的有序性和高效性,存储系统采用分层架构,在计算节点和后端存储间引入I/O转发服务层,I/O访问的分发和控制由服务层完成,并辅助以存储缓存管理,提高访问性能,缩短由I/O访问路径增长带来的时延。

在存储软件上,计算节点应用轻量级文件系统(light weight file system, LWFS)实现高效、低资源占用,以减少对计算节点资源的占用开销。

在计算节点上,运算核与控制核间通过紧耦合的I/O模块以内存映射的方式实现数据的高效传输和共享。

整体软硬件系统架构如图4所示。

图4 神威并行存储系统架构其中,I/O模块运行在控制核心的内核模块,负责在控制核心的LWFS上增加数据映射通路,支持运算核通过控制核访问后端存储系统。

LWFS部署在计算节点和存储服务节点上,负责计算大规模运算节点的数据存储请求,支持控制核访问后端存储系统上的全局文件系统——神威全局文件系统(SWGFS)。

SWGFS部署在存储服务节点上,通过虚拟化整合异构的网络存储设备,将其抽象为对象存储设备,并构建基于对象的分布式并行文件系统,提供全局统一视图和全局共享的数据存储服务。

存储系统的总体设计原则是:明确各层的功能和目标、计算节点I/O访问的代价和开销尽量小、应用I/O访问的方式简单高效。

I/O转发服务层负责数据访问通路和缓存管理,具有存储系统整体视图,通过多种参数进行I/O访问的调配,以达到I/O访问的均衡;后端存储部分负责对存储资源和空间进行高效管理。

3.1 LWFSLWFS是在“神威蓝光”存储系统中引入的,早期的设计没有考虑异构众核场景,计算节点采用了无缓存的用户层文件系统设计。

相关文档
最新文档