HostMonitor监控软件使用说明
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
- 32 -
RAS(Remote Access Service)
通过RAS的连接进行远程监控访问,可用于拨号链路、 ISDN的检测 可用于拨号备份、公司内部的ISDN的检测
- 33 -
Windows 相关监控——Process 监控
检查本地或者远端进程数,当进程数不在指定的区间内则 报警 Windows:需要用指定帐号连接到远端机器,且远端主机 的 Remote Registry Service 服务必须打开 也可通过RMA for win 实现 UNIX: 使用RMA 进行监控
- 24 -
Host Moniter 常用监控方法介绍
网络监控:Ping、Trace、TCP 磁盘空间、文件检查:UNC Windows 相关监控:Process、CPU Usage、Performance Counter
Txt Log 检查 Db Server 检查 Ras 检查 外部程序调用检查
数据库:可用性、性能、空间、连接数、死锁等
应用:可用性(OA、邮件)、CPU利用率、内存使用、 网络资源占用、进程资源、网络资源、磁盘访问资源等
-6-
监控的实际应用(一)
外联单位链路、主机、路由、应用端口
• • • • • 交易所 银行 保证金监控中心 营业部 拨号备份线路
-7-
监控的实际应用(二)
从运维辅助工具作起,逐步完善日常系统运维体系
- 17 -
第二部分: HostMonitor系统介绍
HostMonitor软件主要功能特点 HostMonitor主要监控方法介绍
• • • • • 网络监控 磁盘空间、文件监控 服务器主机监控 数据库监控 Text Log 检查
灵活的监控时间控制 远程监控
系统监控是既有运维经验的提炼 系统监控是高效的巡检方式
系统监控是运维的辅助工具,为系统运维提供帮助
定期对系统重要运行环节的检查是不可替代的
- 14 -
巡检注意事项
巡检应该在关键时间节点进行
• 开盘前,交易小结前后,午盘前后,收盘等关键的业务节点
巡检注意事项
• 巡检中不应该夹杂操作内容 • 尽量避免可能的误操作 • 在不同的时间点,检查项目有所偏重
- 21 -
系统主要功能介绍—— 强大的报表管理和日志分析工具
可将测试结果生成不同类型的日志文件 TXT、HTML、DBF、ODBC 可针对不同的岗位定制特定的日志报告 如 主机管理、数据库管理、OA管理、IT 管理人员等 可针对不同的测试根据时间周期产生图形化的报表
- 22 -
系统主要功能介绍—— 跨平台支持的远程监控代理
- 29 -
网络监控——Trace 监控(三)
4、总跳点数 5、没有响应的节点数 6、路由信息(只显示IP) 7、路由信息(显示跳点、IP、响应时间)
- 30 -
网络监控——TCP 监控
可监控所有基于TCP的应用,如 FTP(21) Telnet(23) SQLSERVER(1433),ORACLE(1521) 等 可发送测试报文,检查指定端口的应答报文
- 15 -
性能指标的收集
巡检和监控中定期性能指标的采集
• CPU、内存、磁盘等性能容量采集
性能指标用途
• 容量管理基础数据积累 • 容量指标异常时,可能预示故障
- 16 -
监控系统奠定基础
监控系统建设的基础
• • • • IT系统风险点的识别 监控指标的识别 配置的识别 容量的识别
• 报表系统 • 邮件系统 • FTP系统等…
- 11 -
如何制定相应的监控策略
了解应用特性,制定相应的监控策略
• • • • • 避免和应用冲突 避免影响应用性能 根据具体应用规划监控时间及监控频率 无人值守时通过短信等方式报警 涉及到性能的监控应采用多级监控及报警
如CPU、内存、空间占用等
远程监控—— RMA(Remote Manage Agent)使用(二)
- 43 -
远程监控—— Telnet service 的使用及特点
以Telnet Server的方式运行,提供Telnet 管理接口 通过指定端口(1054)连接远端或者本地的 HostMonitor(需要打开RCI支持) 客户端与Server点通讯数据加密传输 可以以服务(Service)方式运行 客户端权限控制,不同的用户拥有不同的管理及操作 权限
服务器主机
• CPU 利用率(10-30秒采样)
• 磁盘可用空间(10-30分钟采样) • 内存使用(10-30秒采样) • 网络连通情况(5-10秒采样)
-8-
Байду номын сангаас
监控的实际应用(三)
数据库服务
• • • • • • • • 连接及登录检查 监听端口检查 数据库可用空间检查 死锁检查 无效的对象检查 连接数检查 LOG文件检查 核心参数检查
- 44 -
Telnet Service 设置界面
- 45 -
Web service 的使用及特点
以HTTP Server的方式运行,提供Web 管理接口 通过指定端口(1054)连接远端或者本地的 HostMonitor(需要打开RCI支持) 客户端与Server点通讯数据加密传输 可以以服务(Service)方式运行 客户端权限控制,不同的用户拥有不同的管理及操作 权限
可根据收到的回应报文报警 有/无应答 应答报文的内容进行匹配 包含/不包含指定字符串或等于/不等于指定字符串
- 31 -
磁盘、文件相关监控——UNC 检查
(Universal Naming Conversion) 通用命名约定 检测 本地或者网络共享资源的磁盘空间检测 类似 \\server\share 描述方式 需指定连入用户及密码 报警: 1、资源不可用 2、可用空间小于指定值(登录用户) 3、总可用空间小于指定值
-4-
系统监控能带给我们什么?(二)
提供多种故障告警方式,及时通知相关责任人,避免故障 发生 收集系统及应用的运行日志,分析发现其中的异常,预测 系统可能出现的问题,将问题消灭在萌芽状态
-5-
系统监控的范围
网络: 网络设备(支持SNMP指令的)、联通性、路由等 主机:CPU利用率、内存使用、IO性能、网络流量等
系统监控方法 及 Host Monitor 系统监控软件使用说明
中国金融期货交易所China Financial Futures Exchange
内容提要
第一部分:系统监控方法及内容 系统监控的作用、范围及实际应用
第二部分: HostMonitor系统介绍
介绍HostMonitor系统监控软件 的主要功能与使用方法
网络监控——Trace 监控(一)
原理: 发送ICMP报文到目的地址,根据对方回应进行检测 用途: 用于路由检测 报警: 1、路由改变 2、总跳点数不等于指定值 3、总跳点数大于指定值
- 28 -
网络监控——Trace 监控(二)
4、总跳点数小于指定值 5、应答超时 6、路由通过指定IP 7、路由没有通过指定IP 显示: 1、总响应时间 2、平均响应时间 3、最大响应时间
- 39 -
灵活的监控时间控制——定时执行控任务(一)
定义自己的监控时间表 7×24 监控(主机、链路、数据库、邮件系统) 周一到周五(OA) 交易时间(应用) 指定时间,每天一次或者每周一次
- 40 -
灵活的监控时间控制——定时执行控任务(二)
- 41 -
远程监控—— RMA(Remote Manage Agent)使用(一)
-9-
监控的实际应用(四)
核心应用监控
• • • • • • • 应用端口检查(可用性、响应时间) 运行环境检查(CPU、磁盘、内存、网络) 进程数检查 进程资源占用检查 应用日志文件检查(定时增长、异常输出等) 配置文件检查 核心参数检查
- 10 -
监控的实际应用(五)
周边应用
• OA系统
RMA 的使用提高了网络的安全性 降低了网络数据的流量 简化了网络的管理 通过RMA,可以实现非WIN32平台下不能完成的功能
RMA 与 Host monitor的数据是加密传输的。 RMA 有 监控站点限制 通过RMA MANAGER 可以配置、重启、升级 RMA
- 42 -
- 25 -
网络监控——Ping 监控
原理: 发送ICMP报文到目的地址,根据对方回应进行检测 用途: 检查远端主机、路由或者其它网络设备的连接状态 报警: 指定时间内X%的回应报文丢失 显示: 响应时间、丢包百分比、收包百分比
- 26 -
网络监控——Ping Test 设置界面
- 27 -
- 18 -
Host Monitor软件主要功能特点
58 种检测方法,能检查主机及应用的各种参数 全面的异常报警方法 多种格式的日志记录 灵活的监控时间控制 内置报表管理器,可生成各类自定义监控报表 可使用RMA(Remote Manage Agent)监控远程网络 支持Web 、Telnet、Remote Control 等多种远程管理方式
- 34 -
Windows 相关监控—— CPU Usage 检测
检查本地或者远端主机的CPU利用率,当利用率大于指定 值时报警 Windows:需要用指定账号连接到远端机器,且远端主机 的 Remote Registry Service 服务必须打开 也可通过RMA for win 实现 UNIX: 使用RMA 进行监控
- 37 -
DB Server 检查
检查 SQL Server、Sybase、Oracle 连接 通过 指定用户进行登录验证
- 38 -
外部程序调用检查
加载外部可执行程序(exe、bat) 检查程序的退出参数(errorlevel)来进行报警
可设定应用程序的运行模式
可设定指定时间无响应则kill 相关应用
系统主要功能介绍——58种检测方法
17项网络相关监控(Ping、TCP、UDP) 8项磁盘、文件相关监控 7项数据库相关监控 6项Windows 相关监控 3项常规监控 15项UNIX相关监控 2项其他监控
- 20 -
系统主要功能介绍—— 30种报警方式
弹出窗提示、声音报警 EMAIL 通知 发送HTTP、TCP、UDP 数据到指定地址 输出到Syslog 日志服务器 外部程序或者脚本调用 启动、停止指定服务 重启远程计算机
• 核心应用应从多方面、多角度进行监控
- 12 -
制定监控策略应注意的问题
不能影响现有系统的正常工作 监控对系统资源的占用上不对系统产生较大影响 CPU资源占用应该在5%以下 监控策略不是越多越好,应注意逻辑控制,防止异常时多 个监控项同时报警,不利于问题查找
- 13 -
监控与巡检的关系
-2-
第一部分:系统监控方法及内容
系统监控能带给我们什么 系统监控的范围及实际应用 如何制定相应的监控策略
-3-
系统监控能带给我们什么?(一)
系统运维从“被动管理”向 “主动管理” 转变 第一时间发现系统异常,避免问题向事故转化
对系统运行状态的集中化管理
辅助系统管理员快速判断问题及解决问题
可 通过Remote Monitor Agent(RMA)监控在其他网络 的远端主机
可支持Windows、Linux、Unix等多种平台
- 23 -
系统主要功能介绍——支持多种远程管理方式
可通过Web方式进行远程管理 可通过Telnet方式进行远程管理
可通过 RCC 远程控制远端的Host Monitor
- 35 -
Windows 相关监控—— Performance Counter 监控
监控目标主机的性能计数器 可监控内存、处理器、磁盘、进程等各项资源
可设定多种报警方式及提示
通过登录用户或者RMA进行连接
- 36 -
Text Log 检查
检查指定文件中的指定特征串(文件可使用日期宏) 可使用表达式进行查找 如(„error‟ or „warning‟) and not „16550‟ 可全字匹配、大小写不敏感、可使用全局的宏定义 报警时可定义错误行的显示内容(按单词拆分),也可显 示指定特征串在文件中的位置或者提示文件长度
RAS(Remote Access Service)
通过RAS的连接进行远程监控访问,可用于拨号链路、 ISDN的检测 可用于拨号备份、公司内部的ISDN的检测
- 33 -
Windows 相关监控——Process 监控
检查本地或者远端进程数,当进程数不在指定的区间内则 报警 Windows:需要用指定帐号连接到远端机器,且远端主机 的 Remote Registry Service 服务必须打开 也可通过RMA for win 实现 UNIX: 使用RMA 进行监控
- 24 -
Host Moniter 常用监控方法介绍
网络监控:Ping、Trace、TCP 磁盘空间、文件检查:UNC Windows 相关监控:Process、CPU Usage、Performance Counter
Txt Log 检查 Db Server 检查 Ras 检查 外部程序调用检查
数据库:可用性、性能、空间、连接数、死锁等
应用:可用性(OA、邮件)、CPU利用率、内存使用、 网络资源占用、进程资源、网络资源、磁盘访问资源等
-6-
监控的实际应用(一)
外联单位链路、主机、路由、应用端口
• • • • • 交易所 银行 保证金监控中心 营业部 拨号备份线路
-7-
监控的实际应用(二)
从运维辅助工具作起,逐步完善日常系统运维体系
- 17 -
第二部分: HostMonitor系统介绍
HostMonitor软件主要功能特点 HostMonitor主要监控方法介绍
• • • • • 网络监控 磁盘空间、文件监控 服务器主机监控 数据库监控 Text Log 检查
灵活的监控时间控制 远程监控
系统监控是既有运维经验的提炼 系统监控是高效的巡检方式
系统监控是运维的辅助工具,为系统运维提供帮助
定期对系统重要运行环节的检查是不可替代的
- 14 -
巡检注意事项
巡检应该在关键时间节点进行
• 开盘前,交易小结前后,午盘前后,收盘等关键的业务节点
巡检注意事项
• 巡检中不应该夹杂操作内容 • 尽量避免可能的误操作 • 在不同的时间点,检查项目有所偏重
- 21 -
系统主要功能介绍—— 强大的报表管理和日志分析工具
可将测试结果生成不同类型的日志文件 TXT、HTML、DBF、ODBC 可针对不同的岗位定制特定的日志报告 如 主机管理、数据库管理、OA管理、IT 管理人员等 可针对不同的测试根据时间周期产生图形化的报表
- 22 -
系统主要功能介绍—— 跨平台支持的远程监控代理
- 29 -
网络监控——Trace 监控(三)
4、总跳点数 5、没有响应的节点数 6、路由信息(只显示IP) 7、路由信息(显示跳点、IP、响应时间)
- 30 -
网络监控——TCP 监控
可监控所有基于TCP的应用,如 FTP(21) Telnet(23) SQLSERVER(1433),ORACLE(1521) 等 可发送测试报文,检查指定端口的应答报文
- 15 -
性能指标的收集
巡检和监控中定期性能指标的采集
• CPU、内存、磁盘等性能容量采集
性能指标用途
• 容量管理基础数据积累 • 容量指标异常时,可能预示故障
- 16 -
监控系统奠定基础
监控系统建设的基础
• • • • IT系统风险点的识别 监控指标的识别 配置的识别 容量的识别
• 报表系统 • 邮件系统 • FTP系统等…
- 11 -
如何制定相应的监控策略
了解应用特性,制定相应的监控策略
• • • • • 避免和应用冲突 避免影响应用性能 根据具体应用规划监控时间及监控频率 无人值守时通过短信等方式报警 涉及到性能的监控应采用多级监控及报警
如CPU、内存、空间占用等
远程监控—— RMA(Remote Manage Agent)使用(二)
- 43 -
远程监控—— Telnet service 的使用及特点
以Telnet Server的方式运行,提供Telnet 管理接口 通过指定端口(1054)连接远端或者本地的 HostMonitor(需要打开RCI支持) 客户端与Server点通讯数据加密传输 可以以服务(Service)方式运行 客户端权限控制,不同的用户拥有不同的管理及操作 权限
服务器主机
• CPU 利用率(10-30秒采样)
• 磁盘可用空间(10-30分钟采样) • 内存使用(10-30秒采样) • 网络连通情况(5-10秒采样)
-8-
Байду номын сангаас
监控的实际应用(三)
数据库服务
• • • • • • • • 连接及登录检查 监听端口检查 数据库可用空间检查 死锁检查 无效的对象检查 连接数检查 LOG文件检查 核心参数检查
- 44 -
Telnet Service 设置界面
- 45 -
Web service 的使用及特点
以HTTP Server的方式运行,提供Web 管理接口 通过指定端口(1054)连接远端或者本地的 HostMonitor(需要打开RCI支持) 客户端与Server点通讯数据加密传输 可以以服务(Service)方式运行 客户端权限控制,不同的用户拥有不同的管理及操作 权限
可根据收到的回应报文报警 有/无应答 应答报文的内容进行匹配 包含/不包含指定字符串或等于/不等于指定字符串
- 31 -
磁盘、文件相关监控——UNC 检查
(Universal Naming Conversion) 通用命名约定 检测 本地或者网络共享资源的磁盘空间检测 类似 \\server\share 描述方式 需指定连入用户及密码 报警: 1、资源不可用 2、可用空间小于指定值(登录用户) 3、总可用空间小于指定值
-4-
系统监控能带给我们什么?(二)
提供多种故障告警方式,及时通知相关责任人,避免故障 发生 收集系统及应用的运行日志,分析发现其中的异常,预测 系统可能出现的问题,将问题消灭在萌芽状态
-5-
系统监控的范围
网络: 网络设备(支持SNMP指令的)、联通性、路由等 主机:CPU利用率、内存使用、IO性能、网络流量等
系统监控方法 及 Host Monitor 系统监控软件使用说明
中国金融期货交易所China Financial Futures Exchange
内容提要
第一部分:系统监控方法及内容 系统监控的作用、范围及实际应用
第二部分: HostMonitor系统介绍
介绍HostMonitor系统监控软件 的主要功能与使用方法
网络监控——Trace 监控(一)
原理: 发送ICMP报文到目的地址,根据对方回应进行检测 用途: 用于路由检测 报警: 1、路由改变 2、总跳点数不等于指定值 3、总跳点数大于指定值
- 28 -
网络监控——Trace 监控(二)
4、总跳点数小于指定值 5、应答超时 6、路由通过指定IP 7、路由没有通过指定IP 显示: 1、总响应时间 2、平均响应时间 3、最大响应时间
- 39 -
灵活的监控时间控制——定时执行控任务(一)
定义自己的监控时间表 7×24 监控(主机、链路、数据库、邮件系统) 周一到周五(OA) 交易时间(应用) 指定时间,每天一次或者每周一次
- 40 -
灵活的监控时间控制——定时执行控任务(二)
- 41 -
远程监控—— RMA(Remote Manage Agent)使用(一)
-9-
监控的实际应用(四)
核心应用监控
• • • • • • • 应用端口检查(可用性、响应时间) 运行环境检查(CPU、磁盘、内存、网络) 进程数检查 进程资源占用检查 应用日志文件检查(定时增长、异常输出等) 配置文件检查 核心参数检查
- 10 -
监控的实际应用(五)
周边应用
• OA系统
RMA 的使用提高了网络的安全性 降低了网络数据的流量 简化了网络的管理 通过RMA,可以实现非WIN32平台下不能完成的功能
RMA 与 Host monitor的数据是加密传输的。 RMA 有 监控站点限制 通过RMA MANAGER 可以配置、重启、升级 RMA
- 42 -
- 25 -
网络监控——Ping 监控
原理: 发送ICMP报文到目的地址,根据对方回应进行检测 用途: 检查远端主机、路由或者其它网络设备的连接状态 报警: 指定时间内X%的回应报文丢失 显示: 响应时间、丢包百分比、收包百分比
- 26 -
网络监控——Ping Test 设置界面
- 27 -
- 18 -
Host Monitor软件主要功能特点
58 种检测方法,能检查主机及应用的各种参数 全面的异常报警方法 多种格式的日志记录 灵活的监控时间控制 内置报表管理器,可生成各类自定义监控报表 可使用RMA(Remote Manage Agent)监控远程网络 支持Web 、Telnet、Remote Control 等多种远程管理方式
- 34 -
Windows 相关监控—— CPU Usage 检测
检查本地或者远端主机的CPU利用率,当利用率大于指定 值时报警 Windows:需要用指定账号连接到远端机器,且远端主机 的 Remote Registry Service 服务必须打开 也可通过RMA for win 实现 UNIX: 使用RMA 进行监控
- 37 -
DB Server 检查
检查 SQL Server、Sybase、Oracle 连接 通过 指定用户进行登录验证
- 38 -
外部程序调用检查
加载外部可执行程序(exe、bat) 检查程序的退出参数(errorlevel)来进行报警
可设定应用程序的运行模式
可设定指定时间无响应则kill 相关应用
系统主要功能介绍——58种检测方法
17项网络相关监控(Ping、TCP、UDP) 8项磁盘、文件相关监控 7项数据库相关监控 6项Windows 相关监控 3项常规监控 15项UNIX相关监控 2项其他监控
- 20 -
系统主要功能介绍—— 30种报警方式
弹出窗提示、声音报警 EMAIL 通知 发送HTTP、TCP、UDP 数据到指定地址 输出到Syslog 日志服务器 外部程序或者脚本调用 启动、停止指定服务 重启远程计算机
• 核心应用应从多方面、多角度进行监控
- 12 -
制定监控策略应注意的问题
不能影响现有系统的正常工作 监控对系统资源的占用上不对系统产生较大影响 CPU资源占用应该在5%以下 监控策略不是越多越好,应注意逻辑控制,防止异常时多 个监控项同时报警,不利于问题查找
- 13 -
监控与巡检的关系
-2-
第一部分:系统监控方法及内容
系统监控能带给我们什么 系统监控的范围及实际应用 如何制定相应的监控策略
-3-
系统监控能带给我们什么?(一)
系统运维从“被动管理”向 “主动管理” 转变 第一时间发现系统异常,避免问题向事故转化
对系统运行状态的集中化管理
辅助系统管理员快速判断问题及解决问题
可 通过Remote Monitor Agent(RMA)监控在其他网络 的远端主机
可支持Windows、Linux、Unix等多种平台
- 23 -
系统主要功能介绍——支持多种远程管理方式
可通过Web方式进行远程管理 可通过Telnet方式进行远程管理
可通过 RCC 远程控制远端的Host Monitor
- 35 -
Windows 相关监控—— Performance Counter 监控
监控目标主机的性能计数器 可监控内存、处理器、磁盘、进程等各项资源
可设定多种报警方式及提示
通过登录用户或者RMA进行连接
- 36 -
Text Log 检查
检查指定文件中的指定特征串(文件可使用日期宏) 可使用表达式进行查找 如(„error‟ or „warning‟) and not „16550‟ 可全字匹配、大小写不敏感、可使用全局的宏定义 报警时可定义错误行的显示内容(按单词拆分),也可显 示指定特征串在文件中的位置或者提示文件长度