高性能计算仿真云平台建设

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Institute of Software,Chinese Academy of Sciences
高性能计算云平台的核心是软件
云计算的核心是平台软件 当前缺乏好的平台
面向各类用户需求的定制
开发,厂商现有产品只能 满足部分需求
整合高性能计算云平台和
其他云服务平台
帐号 数据 协同 ……
Institute of Software,Chinese Academy of Sciences
管理示例:断电关机流程
与物业联系供电现状 检查主机系 统是否正常 否 双路断电操作确认 是 采取开门、布置应急风扇降 温措施并观察温度和供电 否 是 节点温度超50度 是 否
I级操作:关闭主机系统外围设备 II级操作:关闭非重要用户计算节点 III级操作:关闭所有用户计算节点(D组) IV级操作:关闭SAN存储设备和LSF服务器 V级操作:关闭磁盘阵列和所有存储节点
一步到位
一步到位
分步到位
用 户 体 验 时间
分步到位
时间
Institute of Software,Chinese Academy of Sciences
高性能计算应用软件配置
出发点 面向用户需求 面向系统架构:兼容性和性能 面向建设特点:买对的,买贵的 两类应用软件 有源软件 商业软件 软件同样是计算中心的资源优势
Institute of Software,Chinese Academy of Sciences
高效运维要素
Institute of Software,Chinese Academy of Sciences
提要
高性能计算中心建设的必要性 高性能计算中心建设与运维

建设 运维 运营

从高性能计算到云计算
应用支持技术
应用移植 应用运行和调度 应用咨询 应用研究 ……
并行计算技术
应用分析和测评 并行应用开发 并行应用优化 新体系架构技术 可视化技术 研究能力
Institute of Software,Chinese Academy of Sciences
提要
高性能计算中心建设的必要性 高性能计算中心建设与运维

建设 运维 运营

从高性能计算到云计算
Institute of Software,Chinese Academy of Sciences
系统运维管理体系
运维管理制度 严格分级、及时有效故障处理 深入扎实的系统技术
科学有效的主机运行指标
严密的安全管理 复杂系统环境的深入研究
全方位的外围保障
人 员
计算中心的发展
天下大势,分久必合,合久必分
Institute of Software,Chinese Academy of Sciences
国外主要计算中心的发展
1985 美国圣地 亚哥超算 中心 1989 韩国超算 中心 2004 巴塞罗那 超算中心
1986 美国国家 超级计算 应用中心
2ห้องสมุดไป่ตู้01 日本东京 工业大学 GSIC
Institute of Software,Chinese Academy of Sciences
计算中心的发展
网络中心时代 1990~2010
计算中心时代 ~1990 PC时代 1990~2010
云计算时代 2010~
网络服务 数据服务 计算服务
Institute of Software,Chinese Academy of Sciences

国家实验室、大学

应用专家主导
国内情况 政府主导 计算机专家主导
高校应当成为我国大规模高性能计算中心建设单位 湖南大学,中山大学
Institute of Software,Chinese Academy of Sciences
归口和定位
谁是婆婆? 谁是金主? 职责和功能 计算中心、网络中心、信息中心还是其他? 建设和运维资金来源? 核心问题:是否利于成果产出?是否能持续发展?
Institute of Software,Chinese Academy of Sciences
提要
高性能计算中心建设的必要性 高性能计算中心建设与运维

建设 运维 运营

从高性能计算到云计算
Institute of Software,Chinese Academy of Sciences
技术示例:稳定性考量
单点(单节点、单部件)故障发生率 互联设备故障发生率 系统内部供电部件故障发生率 硬件故障致节点更换总次数 运行自陷致节点重启总次数 运行出错致作业迁移总次数 ……
Institute of Software,Chinese Academy of Sciences
运维管理系统保障
专业、稳定、敬业的维护队伍
管 理
技 术
高效运行的超级计算机系统
Institute of Software,Chinese Academy of Sciences
管理示例:应急预案
《主机房消防应急预案》 《气体喷淋系统启动撤离及处置应急预案》 《超级计算机系统紧急关机操作方法》 《主机房断电应急预案》 《机房空调故障应急预案》 《重大灾难应急处理预案》 ……
Institute of Software,Chinese Academy of Sciences
国际超级计算中心运营
超级计算中心 建成时 间 1985 人员 规模 400 设备更新 费用来源 联邦机构 日常运营费用及来源 (美元/每年)
美国圣地亚哥 超级计算中心
美国国家超级计算 应用中心 芬兰科学计算中心
1986
500
联邦机构
1970
140
中央政府机构
瑞士国家 超级计算中心 韩国KISTI 超级计算中心
1991
40
联邦机构
1988

中央政府机构
Institute of Software,Chinese Academy of Sciences
持续投入:最大的挑战
定期建设经费 常规运营经费 除去基建经费,每年运营约占建设经费的 1/8~1/5
Institute of Software,Chinese Academy of Sciences
高性能计算云平台建设
姚继锋
中国科学院软件研究所 中科嘉速(北京)并行软件有限公司
2012年6月29日 广州
Institute of Software,Chinese Academy of Sciences
6000万 其中2000万来自NSF;其余主要来自联邦 机构、州政府的各个研究项目
超过2000万美元 主要来自NSF,部分来自于州政府(700 万)、大学及其他联邦机构 5000万 其中65%来自教育部,20%来自合作项目, 15%来自其他方面 900万 其中850万来自联邦机构;仅有50万来自 第三方 3000万 其中1000万来自韩国政府直接拨款;1000 万来自与政府部门、高校的研究项目;另 外1000万来自其他项目

Institute of Software,Chinese Academy of Sciences
小结
高性能计算对科研发展至关重要 高校应该成为大型高性能计算中心的主要力量 好的计算中心不仅仅需关注机房和硬件,还包括软件、
Institute of Software,Chinese Academy of Sciences
国内主要超级计算中心
北京,上海,天津, 深圳,济南,长沙, 广州 ……
Institute of Software,Chinese Academy of Sciences
国内计算中心建设单位的缺憾
国外成功经验表明 建设单位应该是应用单位
专业应用平台
Institute of Software,Chinese Academy of Sciences
人员配备
研究开发
系统技 术支持
应用技术 支持
Institute of Software,Chinese Academy of Sciences
核心技术能力
系统技术
硬件系统 电源冷却等支撑技术 操作系统 并行文件系统 存储系统 ……
超算中心系统环境架构
内外部互联网络环境 运维管理平台
• 安全,稳定,高速 • 易用,实用,功能强大
高 用 高性能计算应 应用 • 用户导向,丰富,高效
超 超级计算机系统 统 • 先进,稳定,可靠,高效
计算中心基础设施
• 齐全,安全,稳定,可持续
Institute of Software,Chinese Academy of Sciences
Institute of Software,Chinese Academy of Sciences
管理运维和应用平台建设
管理员
资源管理系统 实时监控系统
管理者
系统数据统计和 分析系统 用户数据统计和 分析系统
使用者
作业管理系统 数据管理系统
作业管理系统
用户管理系统 巡检管理系统 …………
可视化系统
提要
高性能计算中心建设的必要性 高性能计算中心建设与运维

建设 运维 运营

从高性能计算到云计算
Institute of Software,Chinese Academy of Sciences
科研创新的三驾马车
新型 材料 海洋 工程 物理
计算 模拟
化学
金融
科研 创新
理论 分析 观察 实验
30分钟未恢复供电 X=1
第X级关机操作命令组合 X=X+1
UPS低于5分钟 否 主机系统是否失电 否
UPS低于20分钟或 节点平均温度超50度

按《主机系统紧急关机操作方法》 直接拉闸 关闭所涉范围 所有设备电闸

否 否
X>5

善后处理
Institute of Software,Chinese Academy of Sciences
计算能力至关重要,很多领域科研水平的高低取决于
计算能力强弱
宇宙学研究(南京大学) 湍流研究(北京大学) 材料机理研究(中国科大) ……

Institute of Software,Chinese Academy of Sciences
高性能/高端计算系统理应集中建设
聚合建设,提供大规模先进计算资源 集约化建设,有限计算资源高效利用
(其中电力和冷却约占1/3)
应有常规有效的投资机制
Institute of Software,Chinese Academy of Sciences
Institute of Software,Chinese Academy of Sciences
提要
高性能计算中心建设的必要性 高性能计算中心建设与运维
Institute of Software,Chinese Academy of Sciences
为什么需要高性能计算中心
专业的技术和服务团队,高效稳定的运维 用户不愿也很难进行有效的运维 专业技术人员的稀缺 是资源中心,更是跨领域的研究创新中心 计算模拟需要多领域的融合 计算中心是最佳的舞台和平台 趋势:集中的计算能力、数据及其处理能力 计算中心将是信息分析和处理中心 学校/地区竞争力和科研力的象征

建设 运维 运营

从高性能计算到云计算
Institute of Software,Chinese Academy of Sciences
云计算的理解
应用 程序 操作 系统 应用 服务 应用 服务
应用 程序 操作 系统 应用 服务 应用 服务
应用 程序 操作 系统 应用 服务
应用 程序
应用 程序
生物 医药
新型 能源 飞机
汽车
船舶
Institute of Software,Chinese Academy of Sciences
高性能计算能力是学校科研能力的主要标志之一
计算仿真是科研的三大途径之一
物理、生物、天文、力学、新材料等众多学科发展高
度依赖于高性能计算;几乎所有学科都可以利用计算 及仿真技术
主机系统考量
可靠性、稳定性 可管理性
兼容性 性能及可扩展性 可用性
运维角度 应用角度 投资角度 售后角度
价格 免费维护期
技术支持能力 应用支持能力
Institute of Software,Chinese Academy of Sciences
一次到位,当前投资方式的不足
运 营 开 销
操作 系统
用户网络化 软件服务化 硬件虚拟化
操作 系统
Institute of Software,Chinese Academy of Sciences
高性能计算中心是天然的云计算中心
昂贵软硬件资源集中部署 用户远程共享使用 租赁资源而不是采购/建设资源 但是 计算虚拟化技术技术不适于高性能计算
相关文档
最新文档