网管专家技术方案书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电
信
网
管
专
家
技术方案书
目录
第一章.产品功能 (3)
1.1网管专家服务内容 (3)
1.2全面监控IT系统架构 (4)
1.3自动搜索+VISIO导入拓扑图管理 (5)
1.4随时、随地在线监控(Mobile APP) (6)
1.5BigRiver海量秒级监测 (6)
1.6URL Transaction业务流程监测 (6)
1.7系统和数据库帐号安全性检测 (6)
1.8故障实时预、告警 (7)
1.9强大的事件日志功能 (7)
1.10直观友好的全局监控视图 (7)
1.11灵活的业务组管理 (7)
1.12丰富的性能评估和故障诊断报表 (8)
1.13可扩展的IT资源管理 (8)
1.14 7*24小时手机APP掌声运维 (9)
第二章.产品部署 (10)
第三章产品优势及特点 (12)
第四章.网管专家价值和应用场景 (15)
第一章.产品功能
1.1网管专家服务内容
网管专家是一种基于“云”的服务平台,提供基础设施智能化管理、快速部署、易扩展、易维护、高价值、稳定性的服务平台。
主要针对企业的基础设施进行监控,通过简单的配置就可以收集企业所有基础设施的状态情况,并且通过统一的展示平台,进行状态的展示,一旦发生问题,云服务平台提供实时告警或者预警的方式告知管理员,提供自动化、快速部署、高效、稳定、易扩展的云服务平台。
无论是针对企业已使用的公有云的服务,还是企业自己搭建的私有云、还是数据中心搭建的混合云,网管专家都有对应的服务帮助企业搭建自动化、智能化的基础设施监控平台,甚至于网管专家服务平台可以和企业合作开发,帮助企业搭建一套定制化的服务平台,提高企业的服务质量,提升业务的在线时间,创造企业更多的价值。
目前网管专家提供两大类服务:
1.IT基础设施监控服务
无论是私有云里面的路由器、交换机、防火墙等网络设备,还是公有云上的IIS、Apache、Vmware Esxi等应用服务,网管专家服务平台都可以进行监控,针对IT基础设施监控,目前网管专家服务平台共有6大类,24小类,118种检测项,并且一直在持续更新中,目前可以针对以下IT基础设施的类型提供监控服务:
●服务器
包括Windows服务器、Linux服务器、IBM AIX服务器、HP UX服务器、Free BSD服务器、Sun Solaris服务器、SCO Linux服务器、HP刀箱、IBM机箱、DELL服务器、支持IPMI协议的服务器
●应用和业务
包括数据库、Web应用、中间件、网站服务器、代理服务器、目录服务器、应用服务器
●网络及安全设备
交换机(Cisco、H3C、HUAWEI、中兴、RuiJie、DLink、AVAYA PBX)、防火墙(NetScreen、PIX、Tos3、Tosvi3、联想网御、CheckPoint、启明星辰)、VPN(天融信VPN、深信服)、负载
均衡(Array、F5、Radware、Barracuda)等所有支持SNMP的通用网络设备
●存储设备
HP MSA设备、Infortrend、NetAPP、SasRaid、EMC等存储
●虚拟化监控
Esx Server、Esxi Vcenter、Hyper-V Xen
●机房温度等其他IT设施
机房UPS、温度检测、湿度检测、放水绳、IBM小型机电源检测等设施
以上就是网管专家服务平台提供的6大类IT基础设施的监控,包含24小类设备和118种检测项,并且一直在持续更新中。
2.智慧城市基础设施监控服务
特别是现在城市一体化、打造智慧城市的理念已经广泛推广,支撑城市基础的设施已经逐渐转变为可管理化的方式。
针对智慧城市,网管专家服务平台提供以下几类的服务方式:
●视频采集类
●感知、传感类
●城市照明类
●交通设施类
1.2全面监控IT系统架构
网管专家服务平台可以对上百家厂商的软件、硬件及应用业务系统进行实时监控,这些管理对象包括:各种WINDOWS,UNIX和LINUX服务器;所有支持SNMP协议的路由器、交换机和防火墙;Oracle,、SQL Server、DB2、Sybase、Postgresql、My SQL等主流数据库;Websphere、WebLogic等主流中间件;IIS、Apache、Tomcat等多种Web Server;OA、CRM、ERP、HIS等多种业务系统;HP、IBM、EMC、SUN等各大公司的存储系统…
1.3自动搜索+VISIO导入拓扑图管理
特别是在私有云的环境中,网管专家服务平台,可以提供可以私有云网络拓扑的展示,在监控系统中展示自动搜索生成的物理连接拓扑图,以及VISIO绘制的机架位置图、网络地形图、应用结构图等多种展示方式,方便用户快速查找和定位故障。
这些不同方式的拓扑图可以实现共存,深入挖掘和自由切换,让管理员“按需查看”。
而且每一个拓扑图窗口都可以全屏显示。
通过网管专家服务平台的全面拓扑管理,IT业务监控人员能够从多个角度来监控整个运营网络系统的网络拓扑结构,包括各个分布地区的子网、各个子网之间的网络连接关系、及其每一子网上的资源。
1.4随时、随地在线监控(Mobile APP)
为保证业务、服务的持续在线时间,减少业务中断所带来的影响,网管专家服务平台提供Mobile APP的移动监控服务,用户只需要安装监控易的APP,通过统一的地址登录之后,在任何可以连接到Internet的环境里,可以随时查看对应监控易服务平台所监控的基础设施,一旦发生问题,可以第一时间查看对应监控的状态,帮助运维人员第一时间判断故障出现点,减少中断的时间,增加业务的在线时间,提升用户的体验。
1.5BigRiver海量秒级监测
私有云客户核心设备(如:核心路由器,交换机,以及运行着关键系统的服务器等)的监测采用传统的轮询式和分钟级别的采集数据的方式已经不能满客户的需求,客户需要更加及时地获得这些设备的工作状态,而网管专家服务平台采用自己先进的调度技术可以把监测点的颗粒度精确到秒级,以保证监测数据的实时性和精确性,做到当客户关键设备出现异常时能在第一时间里发现问题,发出报警,为客户解决问题赢得宝贵的时间。
网管专家服务平台达到最快轮询频率为5秒一次,大大缩短网络的故障响应时间,降低网络故障的损失。
1.6URL Transaction业务流程监测
网管专家的URL Transaction业务流程监测功能完全模拟终端用户的实际访问过程或网上购物过程,自动监测所有基于B/S的业务流程应用。
网管专家服务平台的业务流程监测的模拟访问支持从1步到5步的自由设置,例如电子购物过程主页、放进购物车、登录帐号、结帐、退出等一个完整的网上购物流程,监测内容包括总响应时间、每一步页面响应时间、失败步骤等。
1.7系统和数据库帐号安全性检测
网管专家平台通过对Windows主机和SQL Server数据库的帐户进行7*24的不间断扫描检测,一旦发现任何一台主机或者数据库的帐户数量增减或者帐户名称发生变化马上通过多种方式进行告警,确保Windows架构下帐号的安全性。
1.8故障实时预、告警
IT基础架构出现故障前及时预、告警,告警方式包括颜色、手机短消息、邮件、声音、脚本、弹出短消息框等多种方式,可以任意自定义告警阀值、告警方式、触发条件等,支持对大型IT系统的告警批量设置。
1.9强大的事件日志功能
网管专家服务平台针对服务进行实时检测,当监测点的颜色状态发生变化时将生成一条事件日志。
事件日志显示事件发生的时间、管理对象、来源,监测类型等。
通过网管专家服务平台事件日志功能,用户可以清楚的对IT基础架构中当前和过去任何时间内发生的事件进行归类、查询、统计,发现IT基础架构发生故障的规律,故障程度及持续事件。
通过网管专家平台的的告警日志查询功能,用户可以清楚的统计任意种类的管理对象、监测点发送告警信息的时间、数量及发送状态等,为IT业务系统的故障和告警管理提供数据支持。
1.10直观友好的全局监控视图
提供仪表盘、状态统计、苹果树等多种监控视图,方便用户一目了然查看整个IT系统的当前运行状态,对预、告警的管理对象和监测点进行实时过滤,实现快速故障定位和根源诊断。
1.11灵活的业务组管理
网管专家可以监控IT系统架构中的几十到几千台设备,为了易于管理,可以对这些设备和监测点进行业务分组管理。
通过业务分组管理功能,用户可以更加直观、方便地了解各管理对象的状态和系统性能。
网管专家业务组管理功能可以把一个真实的管理对象放到不同的业务组里面,比如一台WIINDOWS服务器可以放到服务器组中,也可以放到系统维护工程师组中,还可以放到OA 组中。
这三个组中都可以同时列出这台WIINDOWS服务器。
网管专家业务组管理功能支持多种灵活的分组管理方式,通过业务分组还可以按照用户的不同管理偏好来设定各种各样的组,比如还可以按照不同业务来分组,按照不同管理工程师来分组,按照物理区域来分组,按照不同科室来分组等等。
同时美信的报警和报告也支持业务组设置。
1.12丰富的性能评估和故障诊断报表
网管专家服务平台可以自定义监控图标内容,把需要监控的内容集中到仪表盘,核心业务、核心服务的性能状态一目了然。
强大的报表管理工具,能够生成实时的和基于天、星期、月及任意起止时间段的历史报表,报表包括实时报表、趋势报表、统计报表、TOP N报表和流量报表等多种类型,以及曲线图、柱状图、面积图、堆叠图、仪表盘、饼图、正负图等多种表现形式。
网管专家平台可以保证即使是对大型的IT系统架构也可以将数据采集频率提高到5秒钟,方便用户对故障的实时诊断;历史报表可以按照原始数据或者统计数据来生成,方便用户对IT系统的故障缺陷查找和性能评估。
网管专家平台支持将不同的关联监测指标放到同一图形中进行比较和分析的报表功能,比如用户可以将接口流量、CPU和内存的使用率以及数据库的关键指标放在一个图形中进行关联分析,来评估服务器和数据库的负载及其他性能状况。
1.13可扩展的IT资源管理
网管专家服务平台通过自动搜索来探测发现服务器、网络设备、数据库、中间件等系统的硬件、软件配置信息,节约了管理人员进行人工记录统计所花的大量时间,还极大的提高
了资源管理的准确性和有效性。
特有的资源管理功能允许网管员对不同的硬软件资源项目进行动态配置和无限层次的扩展。
不仅能支持系统固有信息配置,还可配置维保、人员管理等业务信息。
1.14 7*24小时手机APP掌声运维
第二章.产品部署
部署方案背景
着IT信息化的快速发展,企业数据中心越来越大, IT架构不断扩展,企业的服务器和网络设备数量越来越多,对IT运维和监控管理提出了新的要求。
面对这种动辄上千台的大型数据中心和分布式网络,传统的监控方式已经不能满足要求,网管专家“云架构”部署方案应运而生。
“云架构”部署方案
在网管专家“云架构”方案中,核心组成部分包括CCU云控制器和容器云节点监控服务器。
CCU云控制器是控制中心,它负责调度监控任务,根据监测设备的数量和监测内容将监控任务分发给监测服务器,并检测云节点服务器的工作状态,一旦某台监测服务器出现故障立刻将监测任务转移到其他监测服务器上。
容器云节点监测服务器主要任务是获取设备监测信息。
随着监控规模的增加,它可以线性增加,注册到CCU中央控制器,中央控制器就会分配监测任务给它。
“云架构”部署方案分为集中式“云架构”部署和分布式“云架构”部署两种方式。
两种方式的主要区别在于容器云节点监控服务器的物理位置不同。
在集中式部署方案中,容器云节点服务器和云控制台服务器部署在一起,通常都部署在企业的IT运营总部;
在分布式部署方案中,云控制台服务器部署在企业IT总部,云节点监控服务器则分别部署在企业位于不同物理位置的数据中心。
下面分别是集中式和分布式的两种不同“云架构”部署方案图。
集中式部署
分布式部署
第三章产品优势及特点
网管专家是完全自主知识产权的管理平台,网管专家核心模块完全独立自主开发,囊括了众多的创新成就,请见下图。
如上图所示,网管专家主要创新成就包括如下几个部分:
●中央控制器(Central Control Unit,简称CCU)
是网管专家的大脑,主要负责协调、管理、分配众多的任务管理器和实时数据库,实现云管理方案中的各项功能。
●TaskDispatcher任务管理器
主要负责调度管理由CCU中央控制器分配过来的监测任务,通常情况下,一个TaskDispatcher任务管理器可以完成对1000台服务器(或者网络设备)的监测。
如上图所示,TaskDispatcher任务管理器所管理下的监测服务器组成监测云,完成对大规模设备的海量监控。
该监测云具备动态监测负载均衡、多机容灾备份、监测服务器热插拔等众多功能。
●BluSky实时数据库
特别针对网管数据开发设计的BluSky r数据库,针对网管数据的特点:轮训快、写入并发高。
设计的美信新一代BluSky数据库,提供PB级的数据处理性能,最快轮训时间5秒一次,并且具有如下特点:
●NoSQL数据库,新的数据库依然是NoSQL数据库,非结构化存储。
●支持多种粒度的读锁,可以根据不同的数据模型采用不同粒度的读写锁。
●支持同时并发大量并发写操作。
●根据数据重要程度与否采用不同事务级别以在性能和安全性取得平衡。
●加强安全性,支持当机重启自动恢复,做到在磁盘没有物理损坏的情况下数据库
不坏,高级别事务提交的数据不丢失。
●支持大块数据存储包括各种格式的文件。
●支持多级索引和全文搜索。
改进B+Tree索引性能,支持长字符串KEY。
●支持实时多机备份,当事务提交时会同时路由到不同机器里的备份数据中。
●改进事务回滚bug。
●数据分心引擎
真正的开放式平台架构,独一无二的数据分析双引擎。
网管专家是高度开放的监测平台,除支持传统的标准监测方式之外,还拥有强大的主动式和被动式个性化数据分析双引擎。
●主动式监测指云网管通过主动轮询的方式连接到管理对象(服务器、网络设备等)上采集数据。
用户基于网管专家平台可以开发出任意的个性化主动式监测器,如对OA系统或个性化业务系统的监测。
网管专家主动式监测有如下特点:
○支持用任何语言写监测器,如:C/C++,Java,C#,Perl,Shell脚本,批处理等任何可以写出可执行模块的编程语言;
○接口简单容易上手,对开发人员要求低,只要有一定编程能力的网管人员,通过简单学习即可写出个性化的监测器。
●被动式监测指网管专家可以实现主动式监测所不能获取的信息,比如:
○管理对象会主动抛出事件而不响应主动请求的,如:网络设备的SNMPTrap,各种系统的Syslog等;
○只允许反向连接的网络环境,如:防火墙只允许被监测对象向监测服务器发出单向连接;
○需要即时响应、而标准监测器又无法满足的,如客户某种私有业务定时会发出某种事件,而这种事件又需要马上被监测系统发现并报警的;
○客户需要自己定制一些即时的反向监测的情景;
○被动式监测的开发和主动式监测一样简单易用
●速度性能和可靠性
强劲的性能,监测1000台设备只需要1台PC Server
网管专家是经过大客户的生产环境严格测试而证明的、性能强劲的网管软件。
下面是2009年12月网管专家在加油站监控项目中的性能表现:
这个性能表现比同类产品高出3-5倍,创造了国内该领域的最优异记录。
●独特的MegaSpeed海量秒级监测,把故障响应级别提升到秒
网管专家采用自主开发的业界领先的预测式多任务分发技术,把监测密度从分钟级提升到秒级,以保证监测数据的实时性和精确性。
用户可以设置监测频率的间隔为5秒、10秒、15秒到30秒(5秒的倍数任意设置)。
这样当客户关键设备出现异常时能在第一时间里发现问题,发出报警,为客户解决问题赢得宝贵的时间。
第四章.网管专家价值和应用场景
网管专家服务平台提供现有公有云的云监控服务,通过异常状态的检测提前发现业务存在的性能隐患,提升业务的在线时间,同时针对数据中心等海量业务检测的私有云或者混合云环境提供高效、稳定、快速部署、自动化管理、统一的云服务平台,强大的图标展示功能和故障告警机制,全面降低运维的难度和工作强度,提升用户的体验,创造更多的企业价值。
目前网管专家服务平台在五大类场景中提供云监控的服务:
1.已搭建在现有的公有云服务
企业现在面临的问题是,如果基于公有云的服务平台搭建业务即将出现问题,企业无法提前预知故障的发生,只有当故障出现问题时才能够知晓,特别是使用公有云服务的企业核心业务和用户都建立在公有云的业务上面,一旦发生问题,将会造成不可估量的价值损失,降低用户的使用体验。
网管专家服务平台这种这种情况,提出针对公有云服务的监控,当公有云的业务性能消耗到一定程度时,网管专家服务平台将会实时自动发出预警给管理员,提醒管理员注意相关业务,从而保障业务的在线时间,提升使用服务者的体验,提高用户的满意度。
并且可以通过网管专家平台的APP,实时的了解服务的运行状态。
使用网管专家服务平台企业收益:
●随时、随地的了解服务的运行状态及性能状态。
●提升服务的在线时间,提高用户的满意度。
●通过异常检测提前预知服务存在的性能隐患。
2.大型数据中心、托管IDC机房的监控服务
大型数据宗信和IDC机房有两点相同,一是有海量的服务器和服务,二都是提供相应的服务给用户使用,所以数据中心和IDC都会面临海量服务器的增加和业务的监控,一般数据中心和IDC的做法是自己搭建一套或者多套网管软件平台,用来检测内部服务器和虚拟化VM的状态,当增加的服务器越来越多的时候,就会出现运维难度大,网管平台配置复杂,每增加服务器的同时要考虑监控平台的性能和监控能力,运维人员在管理服务器的同时还需要管理网管平台,没有自动化管理的平台,增加运维人员的工作难度,降低团队的效率,增加企业的成本。
针对这种情况,网管专家服务平台,提供快速部署、自动化管理的服务,数据中心在新增服务器的同时,安装网管专家的插件,即可将新增的服务器自动添加到监控易服务平台里面,真正的实现自动化管理,运维人员通过网管专家服务平台即可全面了解数据中心服务器的状态,减少运维人员工作的强度,增加团队的效率。
特别是在Vmware的虚拟化环境里面,在部署VM之前可以将网管专家服务平台的插件集成到VM的模版里面,这样新增的VM系统将会自动添加到网管专家服务平台当中,一旦VM即将发生问题,数据中心运维人员可以马上通知用户,提高服务的质量,增加用户的满意度。
使用网管专家服务平台企业收益:
●快速部署、自动化管理的平台
●统一的监控平台,提升团队工作效率
●随时、随地实时的了解数据中心所有服务器的状态。
●高效、稳定的视图展示和预警、告警功能
●强大丰富的图标展示功能
●提高服务质量,提升企业价值。
3.合作开发,互惠互利
特别外包服务提供商,专门针对企业提供IT服务的公司,现在面临的问题是,随着客户越来越多,服务的成本越来越高,主要原因是在于众多的公司对于核心业务的要求不同,甲公司要求核心业务不中断,乙公司要求尽量提升核心业务的在线时间,提前预知业务的状态,企业对于核心业务越来越重视,外包服务商对应的提供服务的成本越来越高,需要组建专门的团队,用来维护、管理、监控客户的核心业务的状态。
网管专家监控服务平台提供租用平台,合作开发的服务,该服务的主要客户是针对外包服务提供商,减少服务提供商的成本,增加提供商服务的质量,提升客户的满意度,主要实
现的方式如下:
外包服务提供商,是以租用平台,合作开发的方式购买服务,在最终客户看来,所有的资源都是外包服务商搭建提供、而真正的内容是网管专家监控服务平台上面划分单独的空间给外包服务商使用,同时,对于外包服务商而言,也可以把网管专家平台提供的服务,当作产品提供给客户,当核心业务或者物理服务器发生故障,第一时间通知客户和运维人员,提升外包服务商的服务质量,增加客户的满意度。
使用网管专家监控服务平台企业收益:
●降低运维成本,提高企业利润。
●提升服务质量,增加客户满意度。
●外包产品服务化,提高企业价值。
4.私有云环境中的云监控服务平台
政府、金融等行业因为本身行业的敏感性,往往企业内部自己搭建IT基础设施和核心业务,当有大量的IT基础设施和服务器等网络设备和服务器时,监控网络设备的运行状态就是私有云环境中首先需要考虑的问题。
网管专家监控服务平台,提供平台出租和平台服务的方式提供私有云环境中的解决方案:
使用网管专家监控服务平台企业收益:
●以服务的方式帮助客户搭建私有云环境的监控平台。
●降低客户开发、搭建、维护、管理平台的费用。
●降低运维人员的工作强度。
●随时、随地实时的了解私有云的运行状态。