联想万全慧眼服务器智能监控管理系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

联想万全慧眼
服务器智能监控管理系统
系统监控版V2.5





联想(北京)有限公司
2003年10月
目录
引言 (3)
第1章万全慧眼概述 (4)
1.1万全慧眼主要功能 (4)
1.2版本更新 (6)
1.3万全慧眼特色 (6)
第2章万全慧眼系统结构 (8)
2.1万全慧眼控制端 (8)
2.2万全慧眼服务器端 (9)
2.3万全慧眼智能监控卡 (9)
2.4万全慧眼远程诊断工具 (10)
第3章万全慧眼监控管理功能 (11)
3.1服务器的网络集中管理 (11)
3.2服务器基本信息 (11)
3.3系统性能 (12)
3.4进程管理 (12)
3.5RAID管理 (13)
3.6磁盘管理 (14)
3.7硬件健康信息 (14)
3.8日志管理 (15)
3.9安全机制 (15)
3.9.1控制端密码管理 (16)
3.9.2SNMP协议的安全机制 (16)
3.9.3服务器远程操作密码 (16)
3.10远程控制 (16)
第4章远程诊断工具 (18)
4.1电话拨号连接功能 (18)
4.2安全管理功能 (18)
4.3监控日志数据 (18)
4.3.1系统事件信息 (18)
4.3.2数据记录信息 (19)
4.3.3系统配置信息 (19)
4.3.4系统状态信息 (20)
4.4服务器远程控制 (20)
4.5数据导出 (20)
第6章万全慧眼应用方案 (21)
6.1万全慧眼在教育行业的应用 (21)
6.2万全慧眼在企业信息化方面的应用 (22)
引言
计算机技术的迅猛发展,随之而来的是以网络为核心的各种应用服务的扩张,WEB服务、邮件服务、数据库服务、电子商务等应用已经深入到社会生产、生活
的各个方面。

而在这些服务的背后,有着无数服务器在支撑。

这些服务器的运行
状态,直接影响着服务器上应用服务的运行。

当社会对应用服务的需求增加,服
务器的数量也会不断增加。

当服务器数量增多时,将逐渐会产生各种各样的问题,
这些问题主要表现在:
服务的可靠性:服务器的瘫痪,甚至短暂的中断,对某些企业和组织来说,都将会带来巨大的损失。

如果要是服务器上的数据发生故障,对某些企业来说可能
会带来更大的灾难。

服务器的数量越多,提供服务的可靠性越低。

因此,应用服
务的发展,越来越需要服务器的高稳定性;
空间的利用率:对于发展快速的行业而言,原先设备所需的空间相对有限。

当服务器数量扩大后,这些设备将占据大量的空间。

在这些情况下,企业需要尽可
能的减少服务器上不常用,而又占空间的键盘、鼠标和显示器。

这样当企业的服务
器数量极多时,将大大提高企业空间的利用效率。

但是服务器去掉这些外部设备后,
对这些服务器的管理和维护又是一个很大的难题;
管理人员效率:当服务器产生故障后,系统管理员需要穿梭于各种服务器、机柜所组成的机房,检查服务器的工作情况,并试图寻找出故障的机器。

这种人工的
维护方式一方面由于人工的穿梭机房将增加服务器的故障时间,加重服务器故障带
来的损失。

另一方面人工的故障发现也将增加服务器的故障时间,当服务器故障时,
管理人员知道故障的时间有一个延迟。

而管理人员在正常状态下又无法及时判断服
务器是否将要发生故障。

如何防止上面可能出现的问题,已经对服务器提出了越来越高的需求,即增强服务器的管理特性。

服务器具备一定的管理管理功能后,管理系统就可以监控服务
器的各个关键参数和数据,对服务器进行预警,通知管理人员采取措施,防止服务
器故障的发生;同时,服务器发生某些故障后,服务器管理系统通过容错手段,自
动进行服务器的错误处理,使服务器恢复到正常状态,以此来加强服务器的可靠性;
另外,服务器管理系统提供远程的管理方式,管理人员就可以不需要通过服务器自
带的显示器、键盘等设备来管理服务器,这样就可以去掉服务器的外部设备,解决
企业对空间利用率的问题;有了服务器管理以后,当服务器发生故障时,管理系统
将会通过各种方式,包括声音、邮件、手机短信等方式在第一时间内通知管理员,
告诉管理员发生故障的服务器名称以及原因。

管理员收到告警通知后,就可以提前
想好解决办法,并及时修复发生故障的服务器,提高服务器的管理效率。

“万全慧眼”服务器智能监控管理系统是根据联想万全服务器量身定做的管理系统,可监控万全服务器的运行状况,对发生异常的参数进行告警,保证万全服务
器可靠地运行,并提供方便的服务器管理。

《联想“万全慧眼”服务器智能监控管理系统技术白皮书》描述了万全慧眼V2.5的系统结构、主要功能、技术特点、以及实际的应用方案。

第1章万全慧眼系统监控版概述
联想万全慧眼服务器智能监控管理系统系统监控版(以下简称“万全慧眼”),符合目前服务器监控管理的业界标准——智能平台管理接口(IPMI)规范的服务
器监控管理软硬件解决方案,用于管理本地和远程的联想万全服务器,可实现错
误报警、系统资源管理以及系统性能监控等多种功能。

在万全服务器上安装了联
想万全慧眼智能监控卡和服务器管理软件,管理员就可以在一个监控台前对局域
网中所有安装有万全慧眼的联想万全服务器进行远程监控,轻松掌握各服务器的
健康状况信息。

当系统出现故障时,可自动实现远程和本地报警,并将事件记录
到系统事件日志中。

用户可检索并分析系统事件日志,及时发现并排除系统可能
出现的故障,保证联想万全服务器长期稳定、可靠地运行。

 
每台配备万全慧眼的万全服务器都配有与操作系统无关的万全慧眼智能监控卡和前面板LCD显示屏,管理员无须打开服务器的显示器,就可以获取此服务
器的系统配置信息、硬件传感器信息、系统事件日志以及报警信息等,即使服务
器宕机或操作系统挂起。

这些信息能够实时刷新,为及时定位和排除故障提供了
有力的帮助。

万全慧眼对管理员的技术水平要求不高,并且大大减轻了管理人员
的劳动负担,可显著提高服务器的可管理性,缩短服务器的非正常停机时间,从
而有效降低服务器的总体拥有成本(TCO)。

 
1.1万全慧眼主要功能
万全慧眼提供了服务器软硬件的综合管理,主要功能为:
l 服务器系统基本信息显示 
显示服务器系统的基本配置信息,如服务器名称、安装操作系统类型、内存容
量等,以及挂接在服务器PCI总线上的附加设备、操作系统运行时间等。

 
l 监控服务器硬件健康信息 
可以实时监测保证服务器硬件正常运行的各项参数,如主板、CPU、热插拔
SCSI/SATA硬盘模组、风扇板等设备上的温度、电压、风扇转速,以此判断系
统的运行状态,并对发生异常的参数给出报警。

 
l 告警管理 
支持丰富的告警信息,如服务器连接状态、机箱侵扰告警、硬件健康信息告警、
进程CPU利用率超门限告警、USB设备和光盘插拔告警等。

在系统发生告警
时,能够及时并以多种方式通知给系统管理员,如界面提示、声音提示、手机
短信和邮件提示等。

 
l 液晶屏监控 
在操作系统正常运行和没有启动时,都能够通过服务器前面板上的液晶屏观察
告警日志和系统运行状态,例如系统配置、传感器读数、系统时间、操作系统
运行状态等。

当服务器操作系统启动后,除了能监控基本的CPU占有率和内存
利用率信息外,还能检测出操作系统是否死机。

 
l 前面板操作 
提供独特的前面板控制功能,在服务器正常运行过程中,通过锁定服务器的前
面板,可以防止管理员在维护服务器的时候意外碰上RESET或POWER按钮,减
少管理员人为的操作失误。

同时服务器的控制端,可对服务器的前面板进行远程控制功能,以软件方式模拟服务器前面板的按钮,强制执行服务器的下电和重启操作。

 
l 远程操作功能 
通过软件方式可对服务器进行远程操作功能,如远程关机、远程开机和远程重启的功能等。

 
l 监视服务器系统性能信息 
可以监控操作系统运行时性能方面的信息,如服务器的CPU利用率、内存利用率、网络输入/输出流量、硬盘I/O访问流量、网卡连接状态等。

通过这些系统性能参数,系统管理员就容易发现服务器系统的访问瓶颈,改进服务器硬件配置,从而提高服务器的整体性能。

 
l 进程管理监控 
对服务器系统的进程状况进行监控,可以了解服务器上运行的各种进程信息,并可以对具体进程设置CPU利用率门限告警策略,当某个进程CPU的利用率超过门限设置时,就会产生告警事件,通知管理员注意该进程的运行情况,并改进服务器系统配置,保证进程的高效地运行。

 
l RAID管理 
RAID是服务器数据的通道,RAID的好坏直接影响服务器的可靠性。

万全慧眼可以对RAID进行监控,可以从远程察看被监控的万全服务器的RAID系统的各种信息和运行状态,保证RAID的可靠、稳定运行。

 
l 磁盘管理 
服务器系统工作盘的运行状况直接影响服务器的可靠性,工作磁盘的磁盘空间也对服务器的效率有很大影响。

万全慧眼可以对远程被监控的服务器的工作磁盘进行管理,可监视物理磁盘和逻辑硬盘的分区信息、剩余容量、以及空间利用率等信息,为管理员的维护提供依据。

 
l 日志管理 
万全慧眼提供丰富的日志管理功能:系统联机记录可以保存服务器每次启动时的系统配置,为管理员确保系统设备配置没有意外的改变;数据的保存策略可以保证管理员得到需要保存的历史数据,同时又不会产生大量冗余的监控数据;告警日志的管理可以让用户导出到外部的文件中,同时提供统一的格式方便管理员的告警管理和分析;监控板卡的告警日志即使在操作系统没有启动的情况下,也能通过液晶屏和远程诊断工具进行分析,为服务器的故障跟踪提供一份保证。

 
l 安全管理 
通过控制端密码、SNMP协议的访问权限、服务器远程操作密码、远程控制信息的加密等安全机制,构成多层次的、完善的权限管理,可以防止未授权的人员进行攻击和非法操作被监控的服务器。

 
l 远程诊断工具 
该工具可以使联想万全服务器用户通过电话拨号直接连接到服务器上,即使在远程服务器关机或挂起的情况下,也可进行远程诊断,使用户能够及时了解到服务器当前的运行状态以及各种系统参数,及时定位问题,并可进行远程开关机、重启等操作。

1.2版本更新
万全慧眼最新版本号为2.5,其包含了2.0版本的所有内容,同时又扩展了新增功能,主要包括:
l 插拔设备告警
可以检测到服务器上的USB盘、光驱等硬件设备的变更,并向控制端发出告
警信息;
l 短信告警
可以将选定的告警信息以手机短信的形式发送到指定手机上;
l 操作系统运行时间
在控制端现实服务器操作系统的运行时间
万全慧眼2.0版包含了1.0版本的所有内容,同时又扩展了服务器其他方面的管理内容,新增功能主要表现在:
l 增加磁盘管理
可以监控和管理服务器上工作的硬盘分区和物理硬盘信息,可以获取磁盘分区
的名称,操作系统类型、总空间、使用空间、利用率等。

l 增强RAID管理
更加深入的RAID管理功能,在万全慧眼2.0中,可以监控到RAID控制器、
RAID HOST驱动器和RAID磁盘的信息。

l 增加进程管理
可以详细监控服务器当前运行进程的信息,包括进程名称、进程PID、CPU
利用率、内存占用、线程个数等,而且用户可以设置进程的CPU利用率门限
告警策略。

l 增加SCSI/SATA硬盘模组和风扇板的管理
增加SCSI/SATA硬盘模组和风扇板的监控功能,包括监控SCSI/SATA硬盘模
组和风扇板的温度、电压和风扇,为服务器的健康安全加强一份保障。

l 增加数据导出策略
可以导出数据到需要的外部数据文件,自由地对该文件进行各种操作。

l 增加远程诊断工具
专门针对联想万全服务器的服务器监控系统,在服务器软硬件运行不正常的时
候进行远程诊断,使用户能够及时了解到服务器故障前的运行状态以及故障问
题。

1.3万全慧眼特色
万全慧眼从国内的服务器实际应用情况和服务器管理需求出发,为万全服务器提供软硬件管理的一体化解决方案,一方面保证万全服务器的可靠运行,另一方
面为系统管理员提高服务器管理的管理质量和管理效率。

万全慧眼的主要特色在
于:
l 标准化的管理
万全慧眼在硬件设计上采用服务器监控管理的业界标准-智能平台管理接口
(IPMI标准),为监控系统的技术领先提供可靠性保证。

同时,在软件系统的
层次上采用简单网络管理协议标准(SNMP协议),进行服务器系统的监控管
理,为监控系统的开放性和可扩充性提供技术保证。

l 软硬件一体化的管理
万全慧眼监控系统不仅对服务器的硬件信息进行监控,掌握服务器部件的工作环境。

而且通过监控操作系统的各种信息,包括操作系统的性能信息,进程信息,磁盘信息等方面的功能,为管理员的服务器管理提供软硬件的一体化解决方案。

l 支持多平台管理
万全慧眼支持多种操作系统的管理,能够更大的支持用户的服务器管理。

在万全慧眼 2.5中,支持的服务器操作系统有:Windows Server 2003,Windows 2000 Server,Windows NT4.0 Server,以及Linux,万全慧眼并能够把这些不同类型操作系统的服务器集中在同一个控制端进行管理。

l 支持热插拔设备管理
万全慧眼监控系统支持多种热插拔设备的管理,能够动态发现热插拔SCSI/SATA硬盘模组和风扇板的风扇等,为服务器的管理增加动态和实时特性。

l 多种故障告警方式
在系统发生告警时,能够及时并以多种方式通知给系统管理员,如界面提示、声音提示、手机短信和邮件提示等。

 
l 支持液晶屏管理
万全慧眼监控系统不仅能够通过控制端软件对服务器进行管理,而且还能通过独特设计的嵌入在服务器前面板上的液晶屏进行管理。

管理人员在服务器前面,不需要显示器就可以通过液晶屏监控服务器的各种信息,包括硬件配置信息、网络配置信息、性能参数、传感器读数和告警、系统事件日志信息等。

l 支持操作系统未在线管理
万全慧眼监控系统不仅可以在操作系统正常运行过程中通过软件方式监控和管理服务器,也能够在操作系统未启动或者挂起的时候进行管理。

通过远程诊断工具,就可以利用MODEM通过电话网拨入到万全服务器监控卡的串口上,监控和管理服务器的信息,也能通过服务器前面板上的液晶屏直接进行管理。

第2章万全慧眼系统结构
万全慧眼监控系统是一个集中式的网络管理系统。

它通过网络来远程管理各个服务器,并且从服务器硬件工作环境到操作系统的运行状态都能进行监控,当监
控的数据状态发生变化时,能够产生告警事件,通知管理员。

万全慧眼的体系结
构为:
图1:万全慧眼系统体系结构图
万全慧眼监控系统主要分为分为4个部分:控制端、服务器端软件、智能监控卡和远程诊断工具。

每个部分都相互独立,并通过各种通讯手段有机的组合在
一起,构成一个综合的软硬件管理方案。

每个组成部分的功能如下: 
2.1万全慧眼控制端
万全慧眼控制端提供图形化用户界面,通过网络与各个服务器系统相连,能对被监控的服务器的硬件状况和该计算机的系统资源进行实时监视和报警,并且
能够把监控到的告警事件和监视数据保存到相应的日志文件中。

 
万全慧眼控制端提供一套友好的告警提醒方式,能够通过颜色变化、显示提示框、声音、EMAIL等多种方式来通知管理员某个告警事件的发生情况,能让管理
员方便地、及时地处理被管服务器内发生的告警事件。

 
万全慧眼控制端和服务器之间的通信机制是采用标准网络管理协议SNMP,在此基础上定义监控管理对象。

通过对监控管理对象的指定操作,监控管理平台就
能够知道服务器软件和硬件资源的运行状态,实时进行刷新。

SNMP协议是因特网
络上设备管理协议的标准,多年广泛的应用实践证明其具备高可靠性,而且很强
的开放性。

万全慧眼采用SNMP协议后,一方面容易为今后的管理功能扩充提供接
口,管理除万全服务器以外的设备,如网络中的路由器、交换机等;另外一方面,
万全慧眼能够接入到第三方的管理工具如HP OpenView、CA Unicenter、LANDesk
等,大大增加用户的应用附加值,并能在现有网络管理的基础上进行管理升值。

 
运行万全慧眼控制端的操作系统平台建议为中文Windows 2000/XP Professional。

 
2.2万全慧眼服务器端 
万全慧眼服务器端是联想万全慧眼监控技术的重要组成部分,用来监视和控制服务器,并作为服务进程的方式在服务器上的运行。

它的功能主要是收集计算
机系统的各种软件信息,包括操作系统方面的数据,如CPU利用率、内存利用率、
网络流量、硬盘存储空间和流量等,同时还收集系统硬件健康信息。

服务器端软
件对收集的软硬件信息进行处理和分析,通过SNMP网络管理协议发送给控制端,
响应和处理控制端的命令请求,并在服务器的监控信息发生告警时主动向控制端
软件报告。

万全慧眼服务器端还包含运行在服务器端的一个后台程序,作为Linux
或者Win 2000的一项服务运行,它的任务是向智能监控卡发送OS的心跳信息,
报告OS的运行状况。

万全慧眼服务器端支持的平台为Windows Server 2003、Windows 2000 Server、Windows NT4.0 Server和RedHat Linux 7.3/8.0操作系统。

 
2.3万全慧眼智能监控卡
联想万全慧眼服务器智能监控卡是整个监控系统的硬件基础,其核心是一颗专用的符合业界标准IPMI规范的BMC(Baseboard Management Controller即主
板管理控制器)芯片。

联想万全慧眼服务器智能监控卡的系统架构及其与系统的
连接如下图所示: 
图2:万全慧眼监控卡的结构图
BMC芯片作为独立的CPU存在,具有很高的可扩展性,可以在其周边设置很多附加的硬件设备,典型的设备包括LCD显示屏及控制按钮、发光二极管(LED)以
及在掉电情况下也可永久保存信息的NVRAM(非易失性存储器)等。

联想万全慧眼
智能监控卡使用主板上的Standby电源供电,因此即使服务器未开机仍然能够正
常工作,并可以通过数据通讯通道(如MODEM等)接受和发送数据和指令。

 
联想万全慧眼智能监控卡还带有远程通讯模块,通过连接调制解调器(MODEM),在系统发生异常的情况下,能够通过电话线传送报警信息,用户也可
在远程通过电话线直接连通本装置读取硬件传感器信息和事件记录等数据。

通过
此接口,监控卡就可以在操作系统异常的情况下和远程诊断工具进行通信。

 
万全慧眼服务器智能监控系统的硬件系统有如下一些技术特点:l 服务器插电即可运行,无需开机即可获取系统配置信息并观察系统日志
l 独立于操作系统,信息的显示无须驱动程序
l 使用专用BMC处理器,不占用任何系统资源,对系统运行无任何影响
l 内容丰富的LCD显示功能,可显示硬件配置、传感器读数和系统事件日志
l 符合业界标准的IPMI规范
l 提供I2C接口,易于扩充功能
l 在系统宕机和OS崩溃的情况下,仍然可以正常运行,并提供丰富的信息便于查找故障。

l 和服务器端软件配合,可以完成更多的服务器管理功能,如判断操作系统是否挂起、服务器的RAID信息等,此外,还能完成各种前面板的操作。

 
2.4万全慧眼远程诊断工具
远程诊断工具提供图形化的监控管理界面,是一种服务器的辅助管理工具,当被监控的服务器出现故障,发生了操作系统挂起或关闭时,可利用该工具通过调
制解调器(MODEM)和公众电话交换网直接与服务器上的监控卡进行通讯。


能通过观察远程服务器的硬件传感器读数、系统日志等信息,诊断出远程服务器
的故障原因,并紧急处理服务器的故障,可以执行各种远程操作如远程关机、远
程开机、或者重启服务器使其恢复正常运行。

万全慧眼远程诊断工具支持的平台为Windows 98和Windows 2000。

第3章万全慧眼监控管理功能
万全慧眼监控管理系统能够对万全服务器进行软件和硬件全面的管理,并且提供了图形化的、方便使用的控制端软件来进行管理。

通过控制端软件,就可在远
程完成服务器的各项管理功能。

本章将详细解释万全慧眼监控管理的各项功能。

3.1服务器的网络集中管理
在万全慧眼的控制端里面,能够监控网络上所有安装装万全慧眼服务器端的万全服务器,提供统一的监控界面。

发现监控服务器的方法有:
l 自动发现
给定IP地址的起始范围,万全慧眼就能自动发现网络上的服务器,并添
加到监控系统中。

l 人工发现
可以安装给定IP地址或者是服务器名称的方法,把制定的服务器纳入到
监控系统的监控范围。

如图,在万全慧眼控制端里面,同时对3台服务器进行监控:
图3:万全慧眼拓扑网络管理图
在该监控网络图中,监控了三台服务器,其中两台服务器的操作系统为LINUX (10.60.10.181和10.60.10.186),另外一台服务器的操作系统为Windows
系列。

服务器的不同图标可以表示服务器的不同状态,从监控图中可以判断三台
服务器都工作正常。

3.2服务器基本信息
显示服务器系统的基本配置信息,如服务器名称、安装操作系统类型、内存容量等,以及在服务器的PCI总线上安装的各种附加设备。

为服务器系统管理员的
日常维护提供简单参考。

如图:
对于每台服务器,管理员能够自由输入服务器的备注信息,为日常的管理增加
标注,方便服务器的管理。

此外,万全慧眼还能监控到服务器上的显卡、光驱以及PCI 上的设备信息。

3.3系统性能
万全慧眼能够监视服务器操作系统运行时重要性能参数,保证服务器在稳定、
可靠的环境下工作。

万全慧眼提供的系统性能信息有:系统的内存利用率、CPU
利用率(对多CPU 的服务器,能够监视系统平均CPU 利用率和独立CPU 的利用
率)、硬盘I/O 流量(多硬盘时,能够监视系统硬盘总的I/O 流量和独立硬盘的I/O
流量),网卡输入/输出流量(多网卡时,能够检测系统网卡输入/输出总流量和单
网卡的输入/输出流量)。

对于系统总体性能参数,显示如图:
对于系统内各个具体设备的性能参数,分别在各个设备的监控页面中显示。

3.4进程管理
万全慧眼系统提供了丰富的进程管理功能,在控制端能够监控到服务器端的所
有进程列表,并且能够显示每个进程详细的信息,包括进程名称、CPU 利用率、
内存占用大小、进程的PID 号、进程包含的线程个数等,当服务器端所在的操作
系统为Windows 2000/2003时,万全慧眼还能判断该进程是否为服务进程。

图4:万全慧眼服务器基本属性图
图5:万全慧眼服务器总体性能图。

相关文档
最新文档