集群部署解决方案实例分析ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

AMAX作为您的供应商?
Yes
您是否会向他人推荐我们的产品及服务?
Yes
12
集群项目实施情况跟踪表2 / 2
在具体安装过场中,有哪些地方,您认为AMAX做的很 好?
“细节沟通,现场安装灵活专业”
在具体安装过场中,有哪些地方,您认为AMAX还有待 改善?
“IPMI 接口相关的配置,如远程访问、主要组件(风扇、电源、 磁盘等)的硬件监控服务。另外,Infiniband 驱动因为内核依赖导 致的不能升级操作系统降低了安全性。”
11
集群项目实施情况跟踪表1 / 2
优秀 – 4 很满意– 3 一般 – 2 有待改善– 1 差-0
安装过程中,进度安排及协调是否恰当?
4
设备是否完好无损并按时进场?
4
是否按计划完成安装进度?
4
安装过程是否专业?
4
您对于此次安装的总体评价如何?
4
ቤተ መጻሕፍቲ ባይዱ基于本次服务,您日后有集群需求,是否会考虑选择
挑战:
• 从接单到部署,要在6周内完成 • IBM平台HA bug修复
2
项目安排
• 接单: • 系统组建: • 机架准备: • 准备电: • 集群测试: • 关机打包: • 出货: • 现场实施: • IBM 软件Bug:
1/14/13 (第1周) 1/28/13 (第3周) 1/30/13 (第3周) 2/1/13 (第3周) 2/5/13 (第4周) 2/21/13(第6周) 2/22/13(第6周) 3/3/13 (第8周) 后续跟进中
需要改进的地方 • 系统/机架组装进程 – 比较缓慢 • ETA 持续变更 • IBM Platform 软件Bug • Intel IB卡 货期长
9
后期跟踪检查 2 / 3
工作中的重难点 • IBM 平台 – 寻求解决方案/检修故障 • 电缆美化 • 将 Intel IB 卡 换成 Mellanox 卡 (增加成本)
joyceleeredhat62redhat64ibmplatformhpcv32版本其他ibm软件与ibm团队合作及时解决故障问题eta持续变更ibmplatform软件bugintelib卡货期长ibm平台寻求解决方案检修故障将intelib卡换成mellanox卡增加成本体会ibm平台并非100稳定用户反映运输木箱不好拆卸10系统序列号加入到dmidecode中11差0安装过程中进度安排及协调是否恰当
集群部署实施实例
Lincoln 金融事业部
概况
2 个机柜配置
• 共计23 个节点 • 18个系统使用IBM Platform HPC
系统:
• 2个 主节点 • 16 个GPU 节点 • 3个数据库节点 • 2个 存储节点
机架:
• 交换机:1个 36 口IB 和 2个 48 端 1G • 4个 60A 智能配电器
14
AMAX 集群服务提供
制作房间整体和每个机架的布局细节图 电缆标签
• 来源地至目的地 • 旗式标签 提供每个机柜可支持的电源的理论值 基于理论功耗,提供 BTU/hr 基于BTU/hr,推荐降温空调规格需求 布线 • 布线方式依项目而异 软件安装 以整个集群为单位做整体测试 专业的现场安装团队
3
团队概述
• 销售负责人: • 项目经理: • IT 经理: • 项目负责人: • 软件: • 工程师: • 生产部门: • 采购部门: • 客服部门:
David Byars Dustin Lei Jason Yuan John Leung Ace Ponce De Leon Dong Wang Risa Aprilria Jocelyn Chen Joyce Lee
15
房间布局图
16
机架布局
17
体会 • IBM 平台并非100% 稳定 • 系统搭建环环相扣 • 实施情况跟踪调查表 • 机柜运输一次性使用木箱贵 • 用户反映运输木箱不好拆卸
10
后期跟踪检查 3 of 3
在未来的集群订单执行中,需要做哪些工作? • 优化的新系统/机架搭建流程 • 通过网站每日发布现场安装报告 • 项目实施情况通过网站进行跟踪调查 • 设计可重复利用的运输木箱或环保型包装 • 系统序列号位置调整 • 系统序列号加入到DMIDECODE中
13
流程表
当前流程 • 物料进场 • 装配 • 安全测试(Hipot) • 完成前最终测试 • 最终测试 • 节点压力测试
• FQA • 最终配件检查 • 最终 QAI • 机柜安装 • 集群测试 • 集群整合 • 包装
新流程 • 物料进场 • 装配 • 完成前最终测试 • 安全测试(Hipot) • 最终测试 • FQA • 最终配件检查 • 最终QAI • 机柜安装 • 集群整体压力测试 • 集群整体功能测试 • 集群整合 • 包装
4
前视图
5
布线
6
线缆标签
7
软件
操作系统 • Redhat 6.2 – 主节点和计算节点 • Redhat 6.4 – 数据库节点和存储节点
集群管理软件 • IBM Platform HPC v3.2 版本
其他 • CUDA 5 • 其他 IBM 软件
8
后期跟踪检查1 / 3
已进行的工作 • 项目规划 • 项目启动会 • 与IBM 团队合作,及时解决故障问题 • 每天提供项目进展状况
相关文档
最新文档