NMC监控工具使用指南及应用案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

NMC监控工具使用指南及应用案例

概述 (2)

系统要求 (3)

架构 (4)

部署 (5)

部署环境(以NC+W AS垂直集群为例) (6)

部署步骤 (6)

进程监控 (13)

功能概述 (13)

MW-XX的监控 (13)

DB-XX的监控 (16)

线程监控 (19)

功能概述 (19)

线程信息说明 (21)

监控设置 (22)

汇总显示 (24)

显示过虑 (25)

联查操作员 (26)

联查数据库 (27)

数据库 (27)

功能概述 (27)

监控客户端功能 (27)

CPU监控 (31)

功能概述 (31)

监控客户端功能 (31)

内存监控 (31)

功能概述 (31)

监控客户端功能 (32)

日志抽取 (32)

功能概述 (32)

NC客户端日志级别设置 (32)

日志数据库 (33)

NCLOG日志抽取 (35)

抽取JVM日志 (40)

抽取CPU (42)

抽取内存日志 (44)

监控消息和快照信息日志 (46)

操作员信息 (47)

消息中心 (48)

功能概述 (48)

监控客户端功能 (50)

安全设置 (52)

功能概述 (52)

监控客户端功能 (52)

参数设置 (53)

功能概述 (53)

监控客户端功能 (53)

应用案例一 (54)

OVERVIEW (54)

进程监控 (54)

线程监控 (56)

日志抽取 (58)

DB-监控 (62)

消息中心 (62)

应用案例二某项目时常出现有几分钟登录不了NC (67)

问题描述: (67)

问题分析: (67)

问题解决方案: (75)

概述

对于NC这样一个复杂庞大的系统而言,监控体系非常重要而且富于挑战性。主要表现如下几点:

1.NC是多层架构的系统,涉到到客户端,网络,操作系统,中间件,数据库.....系统可能出现在任何一点出现异常。

2.缺乏离线分析定位的能力。大量的问题只能通过问题再现等方式在线定位。这就要求客户配合,可能还要反复的搭建环境。效率低下,限制多多。

3.有很多问题只有专家级的人才能定位。对于不非常了解系统的管理员不知如何下手。

4.日志作为分析问题很重要的部件,但其数量庞大,分析起来费时费力,不得要领。

5.系统缺乏自我纠正的能力。某个服务器一旦出现问题,比如长时间不响应,只有客户报告后,逐个端口检查一遍才能确定那个服务器有问题,

而且只能管理员手工解决。

6.缺乏系统评估的客观数据。对于系统的吞吐量,cpu,内存,并发量,每次远程调用的性能指标等缺乏必要的客观数据。

7.监控目标繁多,缺乏统一集成的监控平台。

.......

其重要性表现为:

1.好的监控系统可以快速发现,定位问题,大幅度降低维护成本,提高管理效率,提高客户满意度。

2.在测试阶段,可以快速的发现并定位问题,提高产品质量。

3.提供系统自我恢复能力。提高系统可靠性

.....

对于上述问题,nmc智能监控系统主要提供如下特性:

1.提供一种集成的监控界面。涵盖了作为问题关注者需要关注的各个方面。使用者可以从多个角度对系统监控和分析。

2.提供一种端到端的监控体系。

监控可以从客户端到应用服务器到数据库都可以无缝监控。

3.各个层次可以相互穿透.追踪整个操作流程.

进程可以穿透到线程,线程可以穿透到数据库,数据库可穿透到线程。各个层次的部件可以相互穿透。

客户端端可以主动录制自己的操作日志。操作日志本身就提供了多层次的数据。以远程调用为核心,提供服务器端的性能统计,

可以联查到客户端的远程调用堆栈,可联查数据库的操作及性能统计。

4.支持插件的可扩展架构,基于服务中心模型集群架构

只要满足客户端或者服务器端的规范的插件就可以很容易地集成进来。

监控服务可以部署到任何一个服务器上,一个监控域可以同时监控多个服务器。在一个监控域内,所有的服务和配置都统一管理,

统一发布。大大提供系统的可监控性和可管理性。

5.主动监控

系统提供了一种消息机制。任何监控插件都可以在系统异常情况下可向服务中心发送消息。消息中心根据每个服务的配置对消息进行报警或者

生成快照。这些报警信息或者快照可以通过短信或者邮件通知管理员。管理员利用这些消息可快速采取措施。

6.主动管理,自我纠正

系统提供了一种机制,监控到系统处于不健康的状况对系统进行管理。管理的动作是可以配置的。比如,自动重启,或者生成dump.

系统还提供了n+1standby的支持。即有一个standbyserver,在某个server重启时,替换此server继续工作。

7.强大的日志抽取和分析能力

可用非常灵活的条件对多个服务器上的日志抽取。包括nc日志,jvm,cpu,memory等日志。并且提供了大量的日志分析脚本来分析日志。

操作员也可主动录制自己的操作日志。可将日志打包后发给相关人员进行分析。

8.同时支持实时监控和事后分析。

9.采用监控服务提供的安全机制,不用泄漏目标系统的安全信息。

系统要求

1.数据库监控的脚本包括客户端的一些性能监控脚本目前只是支持oracle9i及以上版本。

相关文档
最新文档