ibm计算机集群技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高性能计算集群技术
计算机集群技术
• 一个HPC Cluster中通常同时使用三个网络, 它们分别是IPC(内部进程通讯)网络,管理网 络和存贮访问网络。根据具体的使用需求和 选择的节点特性,这些网络可以使用多种介 质和协议。
高性能计算集群技术
计算机集群技术
• IPC网络: 用于并行任务执行时的进程间通信的专用网 络,通常要求延迟小,带宽大。
高可扩展性集群技术
计算机集群技术
• 到目前为止,针对网络负载均衡的产品主要有两大 类:一是硬件;二是软件。硬件产品比软件产品运 行得快但是价格较高。著名的产品有:3Com的智能 网卡和DynamicAccess技术结合起来,不用在交换机 上做任何设置,就可以完成分担任务;Cisco路由器 通过对动态环路、旁路技术等功能的提供实践着负 载均衡;Win2000中,专门集成了针对服务器群集的 负载均衡软件;IBM的Web专用服务器和Network Dispatcher软件;Lotus的ICM;还有许多厂商都支持 的链路聚集、高层交换......实现方法还在不断地花样 翻新,充实着"负载均衡"的内容。
高可扩展性集群技术
计算机集群技术
高可扩展性集群技术
计算机集群技术
• 负载均衡的作用就像轮流值日制度,把任务分给大 家来完成,以免让一个人过度劳累。但是与轮流值 日制度不同的是,负载均衡是一种动态均衡,它通 过一些工具实时地分析数据包,掌握网络中的数据 流量状况,把任务理分配出去。对于不同的应用环 境(如电子商务网站,它的计 算负荷大;再如网络 数据库应用,读写频繁,服务器的存储子系统系统 面临很大压力;再如视频服务应用,数据传输量大, 网络接口负担重压。),使用的均衡策略(算法)是不 同的。 所以均衡策略(算法)也就有了多种多样的 形式,广义上的负载均衡既可以设置专门的网关、 负载均衡器,也可以通过一些专用软件与协议来实 现。
计算机集群技术
• 高可扩展性集群技术就是带均衡策略(算法) 的服务器群集。负载均衡群集在多节点之间 按照一定的策略(算法)分发网络或计算处 理负载。负载均衡建立在现有网络结构之上, 它提供了一种廉价有效的方法来扩展服务器 带宽,增加吞吐量,提高数据处理能力,同 时又可以避免单点故障。
高可扩展性集群技术
高可扩展性集群技术
计算机集群技术
• 如NCSA使用几台工作站构成可扩展并行Web服务器 群,提供使用其浏览器软件Mosaic、服务器软件 httpd的用户查询帮助信息和下载软件的服务器系统, 采用轮循算法选择群集中某台计算机为当前访问请 求服务;加州大学SWEB系统采用DNS转发技术实现 服务器IP地址重定向(Yahoo 采用的就是这种方法); Inktomi公司利用NOW构造并行的HotBot检索引擎, 因而系统具有成本低和扩展能力强的特点;此外, IBM公司也提出类似的可扩展并行Web服务器群集系 统的设计方案。这些系统的成功表明Web 服务器群 集是改善Web服务的一种有效解决方案,并且正在 成为主流技术。
计算机集群技术
高性能计算集群技术
高性能计算集群技术
计算机集群技术
• 高性能计算集群,英文原文为High Performance Computing Cluster, 简称HPC Cluster,是指以提高科 学计算能力为目的计算机集群技术。 HPC Cluster是 一种并行计算(Parallel Processing)集群的实现方法。 并行计算是指将一个应用程序分割成多块可以并行 执行的部分并指定到多个处理器上执行的方法。目 前的很多计算机系统可以支持SMP(对称多处理器) 架构并通过进程调度机制进行并行处理,但是SMP 技术的可扩展性是十分有限的,比如在目前的Intel 架构上最多只可以扩展到8颗CPU。为了满足哪些" 计算能力饥渴"的科学计算任务,并行计算集群的方 法被引入到计算机界。著名的“深蓝”计算机就是 并行计算集群的一种实现。
计算机集群技术
计算机集群技术综述
计算机集群技术
将多台计算机组织起来进行协同工作来模拟 一台功能更强大的机器,这种技术称为集群 技术。所谓集群,就是共同为客户机提供网 络资源的一组计算机系统。目前应用最为广 泛的集群计算技术可以分为三大类: 高可用性集群技术(HA) 高性能计算集群技术(HPC) 高可扩展性集群技术(HE/NLB)
高性能计算集群技术
计算机集群技术
应用程序是否可以"并行化"? --HPC Cluster对于可以并行化的应用程序最为 有效 • 要实现并行计算,您需要:
– 支持并行运算的硬件架构; – 支持并行计算的应用程序; – 使应用能够并行执行的软件工具,如编译器,API 等等。
高性能计算集群技术
计算机集群技术
怎样才能提高"计算密度"? --所谓的"计算密度"是指在单位空间中所能提供的计 算能力(所能摆放的计算机台数)。没有很好的计 划和组织,一台1000+节点的超级计算机就可能成为 一场超级麻烦。更高的计算密度不仅意味着更小的 体积,也以为着更加简便的管理和更少的投资。1U 的机架式服务器应当是首选。然后应该考虑的是: 哪种服务器需要更少的电缆?哪种计算机用作计算 节点可以省去额外的控制部件(如连接键盘、鼠标 的控制台切换器)?哪种计算节点可以提供更高的 计算效能?
高性能计算集群技术
计算机集群技术
如何安装和管理所有的计算机? --计算机的可管理性在HPC Cluster的实现中至 关重要。在同时面对数十甚至成百上千的计 算机的情况下,管理员能否简单快速地执行 维护工作常常成为影响集群 发挥效用的关键 因素。
计算机集群技术
高可扩展性集群技术
高可扩展性集群技术
计算机集群技术
高可用性集群技术
高可用性集群技术
计算机集群技术
• 高可用性集群,英文原文为High Availability Cluster, 简称HA Cluster,是指以减少服务中 断(宕机)时间为目的的服务器集群技术。
高可用性集群技术
计算机集群技术
• 可用性是指一个系统保持在线并且可供访问, 有很多因素会造成系统宕机,包括为了维护 而有计划的宕机以及意外故障等,高可用性 方案的目标就是使宕机时间以及故障恢复时 间最小化,可以容忍的宕机时间明确的说明 方案的全面性、复杂性和成本
计算机集群技术
• 一般的框架结构如下图(以Web访问为例,其 它应用类似)。后台的多个Web服务器上面有 相同的Web内容,Internet客户端的访问请求 首先进入一台服务器,由它根据负载均衡策 略(算法)合理地分配给某个Web服务器。每 个Web服务器有相同的内容做起来不难,所以 选择负载均衡策略(算法)是个关键问题。 下面会专门介绍均衡算法。
高可用性集群技术
计算机集群技术
• 为了提高整个系统的可用性,除了提高计算 机各个部件的可靠性以外,一般情况下都会 采用集群的方案。 • 所谓集群,就是共同为客户机提供网络资源 的一组计算机系统。而其中的每一台提供服 务的计算机,我们称之为节点。当一个节点 不可用或者不能处理客户的请求时,该请求 将会转到另外的可用节点来处理,而这些对 于客户端来说,它根本不必关心这些要使用 的资源的具体位置,集群系统会自动完成。
高可扩展性集群技术
计算机集群技术
• Web服务器群集的概念最早由伊利诺斯州大学 (UIUC:University of Illinois at UrbanaChampaign)的超级计算应用中心(NCSA: National Center of Supercomputing Applications) 提出并实现了一个原型系统"NCSA Scalable Web Server Cluster", 它通过连接一组计算机 对客户同时提供服务,实现分布负载,降低 对用户请求的响应时间,并扩展Web服务器的 应用。后来Berkeley的NOW小组、Nຫໍສະໝຸດ BaiduC和科罗 拉多大学的Harvest小组、Cisco及IBM公司等 也加入此行列,很快推出相应产品。
高可扩展性集群技术
计算机集群技术
• 在OSI七层协议模型中的第二(数据链路层)、 第三(网络层)、第四(传输层)、第七层 (应用层)都有相应的负载均衡策略(算 法),在数据链路层上实现负载均衡的原理 是根据数据包的目的MAC地址选择不同的路 径;在网络层上可利用基于IP地址的分配方式 将数据流疏通到多个节点;而传输层和应用 层的交换(Switch),本身便是一种基于访问 流量的控制方式,能够实现负载均衡。
高性能计算集群技术
计算机集群技术
• 存贮节点: 提供存贮共享的计算机。为了使任务可以并 行执行,每台执行任务的计算机必须能够访 问同样的数据。存贮节点通过网络共享(NFS) 或其它方式来确保数据访问的同步。
高性能计算集群技术
计算机集群技术
• 计算节点: 真正执行计算任务的计算机。集群中的大部 分计算机都是这种类型。
高可扩展性集群技术
计算机集群技术
• 快速响应优先算法,是根据群集中的服务器 状态(CPU、内存等主要处理部分)来分配任 务。 这一点很难做到,事实上到目前为止, 采用这个算法的负载均衡系统还很少。尤其 对于硬件负载均衡设备来说,只能在TCP/IP 协议方面做工作,几乎不可能深入到服务器 的处理系统中进行监测。但是它是未来发展 的方向
Percent Available 99. 5 99. 9 99. 99 99. 999 99. 9999 downtime/Year 3.7 days 8.8 hours 52.6 minutes 5.3 minutes 32 seconds Classification Conventional Available Highly Available Fault Resilient Fault Tolerant
高可扩展性集群技术
计算机集群技术
• 在Web负载均衡群集的设计中,网络拓扑被设 计为对称结构。在对称结构中每台服务器都 具备等价的地位,都可以单独对外提供服务。 通过负载算法,分配设备将外部发送来的请 求均匀分配到对称结构中的每台服务器上, 接收到连接请求的服务器都独立回应客户的 请求。 如下图所示。
高性能计算集群技术
计算机集群技术
• HPC Cluster向用户提供一个单一计算机的界面。前 置计算机负责与用户交互,并在接受用户提交的计 算任务后通过调度器(Scheduler)程序将任务分配 给各个计算节点执行;运行结束后通过前置计算机 将结果返回给用户。程序运行过程中的进程间通信 (IPC)通过专用网络进行。 HPC Cluster中使用的服务器通常可以分为用户节点、 管理节点、存贮节点和计算节点四种。它们的角色 分别是:
高可扩展性集群技术
计算机集群技术
• 目前,基于均衡算法主要有三种:轮循(RoundRobin)、最小连接数(Least Connections First),和 快速响应优先(Faster Response Precedence)。轮循 算法,就是将来自网络的请求依次分配给集群中的 服务器进行处理。最小连接数算法,就是为集群中 的每台服务器设置一个记数器,记录每个服务器当 前的连接数,负载均衡系统总是选择当前连接数最 少的服务器分配任务。 这要比"轮循算法"好很多, 因为在有些场合中,简单的轮循不能判断哪个服务 器的负载更低,也许新的工作又被分配给了一个已 经很忙的服务器了。
高性能计算集群技术
计算机集群技术
• 用户节点: 提供用户界面的计算机。它从用户那里接受 任务,运行调度器(在本地或独立的"控制节 点"上)将任务分派到其它计算机,并将运算 结果返回给用户。
高性能计算集群技术
计算机集群技术
• 管理节点: 提供管理功能的计算机。它应该能够使管理 员从这一计算机对集群中的任意一台计算机 进行监视和操作,并处理集群中所有计算机 的日志和报警信息。
高性能计算集群技术
计算机集群技术
• 管理网络: 用来收集集群信息、监视集群计算机和执行 维护任务的网络。
高性能计算集群技术
计算机集群技术
• 存贮访问网络: 用来访问公用存贮的专用网络。
高性能计算集群技术
计算机集群技术
在实现一个HPC Cluster时,通常需要考虑以 下问题: • 应用程序是计算能力饥渴型(CPU+内存)还 是IO(磁盘/网络)饥渴型? --HPC Cluster只适合解决计算能力饥渴型的问 题
相关文档
最新文档