海量非结构化数据技术在运营管理中的运用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用GoldenGate等数据 库同步技术采集结构化数据, 实现离线状态下实时交易性 能分析;
19
根据不同类型数据的特点,采取不同的技术手段
采集方式
网络交易报 文采集
应用交易日 志采集
交易流水镜 像采集
适用场景
交易协议标准、规范 协议非加密 网络镜像流量获取方便 网络节点间交易监控
交易日志保存在文本文件中 日志格式标准、规范 对交易日志有归档查询、故障
传输:能够将采集到的各类日志,按照要求(是否可丢失),安全、稳定、可 靠的进行传输,传送到日志采集服务器;
归档与查询:
归档:将采集到的各类日志,按照系统、模块、节点等架构规则,采集时间、 保存周期等周期规则,业务、系统等属性规则,进行多维度归档与备份;
查询:按照归档的多维度属性,能够进行跨系统、跨节点、跨文件综合查询;
数据规划
数据生产
- 在线生产数据监控采集 - 近线查询数据归档处理 - 离线归档数据备份分析 - 数据分析结果综合运用
数据
管理
数据管理
-生产状态监控 -运行趋势分析 -整体容量管理 -历史数据调阅
数据使用 -运营情况分析 -业务创新支持
科技服务之一:结构化/非结构化数据的全生命周期管理与使用
➢ 数据管理如何实现 ➢ 哪些是结构化数据 ➢ 哪些是非结构化数据
告警中心视图
服 务 台 视 图
Βιβλιοθήκη Baidu
告警热度图
告警大屏视图
交易视图
一 线 视 图
应用关联性视图
交易详情视图
交易路径视图
二 线 视 图
资源使用视图
会话性能视图
系统容量数据采集:系统数据、应用数据、交易数据
历史数据综合查询:海量归档、转结构化、多维查询
31
业务运行状态分析:业务类型分布、业务类型趋势
32
9
➢ 数据管理如何实现 ➢ 哪些是结构化数据 ➢ 哪些是非结构化数据
结构化数据及其采集使用:交易流水......
A Composit系e统W名称eb Application, Involving J2EE, Integrat是io否n含有M下id列d内le容ware and Legacy Systems
18
根据不同类型数据的特点,采取不同的技术手段
网络报文为动态瞬时 存在数据,采集、解读、 处理难度大,但数据为 强客观性,分析与利用 价值高;
监控预警 运营分析 业务支持
利用Hadoop、Storm 等主流大数据技术,采 集归档并分析海量非结 构化日志,可完成跨层 面跨节点的多维度查询 与分析;
离线交易流水
用户行为分析:操作行为、过程行为、结果选择
目录
1 银行数据全生命周期管理探讨
2 海量非结构化数据特点及使用
3 海量非结构化数据技术要点与实现
▪ 采集与传输、归档与处理、查询与统计、分析与展现、集成与运用 ▪ 采集的复杂性、传输的可靠性、处理的高效性、结构化能力..........
34
技术要点与实现架构:明确数据对象、设计技术手段
系统资源层
企业年金系统(EPAMS) 客户信息统一管理系统(ECIF)
有
有
有
有
有
交易渠道
有
有
有
有
改造后有报警日志交易渠道
有
有
有
有
有
无
信贷风险流程管理系统(CECM) 市场风险管理系统总 (SU前MM生IT产) 主机
有
有
有
无
有
无
有
有
数据库有服务器
有
有 WEB前台应用无
➢ 数据管理如何实现 ➢ 哪些是结构化数据 ➢ 哪些是非结构化数据
银行各类数据的产生、分布、状态、用途.......
安全事故 故障单
审计
接 入 网络 服务器 应用 存储 虚拟化 发展 安全 规范 变更 管理
安全
操作
账务
银行单笔业务的执行,引起整体架构各层面产生各类关联性数据
信息
业务执行产生 动态与静态数据
基础运行产生 技术相关数据
分析哪里存在数据、什么形式、特征如何、如何管理、如何使用
有
数据库复有 制
有
有
在同一字段内
有
总前数据库
有
有监控Web端有后台数据库 有
有
有
有
有
有
有
有
前置二期监控实施中
有
有
后台监有控程序
有
有
有
(数据有分析)
有
有
有
有
无
有
无
有
渠道
有
有
WEB页面显示
有
登录方式
有
运营商
有
无
有
业务种类
有
交易种类
监控后台报警
有 程序
无
有
交易渠道
基金托管系统(FTS)
有
有
有
有
有
有
第三方存管系统(IFTS)
交易流水表
交易代码
交易日期
交易时间
交易状态
分类统计
图形化前端管理系统(GTS)
有
有
有
有
有
分行号
交易数据 错误日志
理财产品销售系统(FUND)
电子支付平台(EPAY总)前服务 PbMainFunc
外汇总买卖系统(EXCH) 前
动态应口令集中认证管理平台(OPT) 现金用管理系统(CaMS) 手机层银行(CEMB)
13
非结构化数据:运行产生的各类日志【静态】
运行过程中产生的各类日志为非结构化特性
• 日志的结构化程度很低 • 日志的字段标示等非标准化 • 跨日志关联性高,但搜索线索难以自动化 • 日志生成的形式多种多样(文件名不定)
• 难以采集、归档、查询 • 非标准日志难以定期清理 • 难以保证日志的完整性 • 难以做上下文关联分析
过期处理
备注
销毁
记录采集时间,日 志发生时间。
加工采集数据。
销毁
留存
销毁 销毁 留存 销毁
35
➢ 日志类采集技术要点 ➢ 网络报文采集技术要点 ➢ 数据整体管理与展现
日志类数据采集关键技术要点
采集与传输:
采集:根据业务、运维、监控、审计的需要,能够按照关联性、完整性、统计 性等要求,采集各技术层面、各类生产环境、各中类型的生产日志;
25
网络交易报文采集分析实现原理
网络交换 机
将流量通过 网络交换机 镜像端口镜 像到流量交 换机
流量交换
探
机
针
监控服务器
流量过滤, 报文拆分 不影响网 络运行
将二进制流 转换为可读 的Pcap包
按照通讯协 议和报文格 式解包
25
26
通过网络报文分析、提前预警故障隐患
前置->Connex上海
前置->connex北京
文件系统
• 监测系统的变化 • 配置 • 密码文件 • 关键性脚本与代
码
非结构化数据:运行产生的网络报文【动态】
XX系统应用协议分析:
– WTC+SOP是基本结构,SOP内还封装其他协议 – 封装XML、封装~|~分隔的key-value pair
生产环境中的各类数据的关联性、多样性、复杂性
•短会话连接情况 (标准输出) •网络报文 •系统日志(SYS LOG)
海量非结构化数据技术在运 营管理中的运用
目录
1 银行数据全生命周期管理探讨
▪ 规划、设计、线上、近线、离线、下线、调阅、销毁? ▪ 结构化数据是哪些,非结构化数据是哪些,如何获取?
2 海量非结构化数据特点及使用
3 海量非结构化数据技术要点与实现
2
3
银行数据全生命周期管理-系统数据、业务数据
定义 控制 维护 使用
备份数据有效性验证与管理
历史数据调用分析使用:
系统数据监控与分析 业务数据的调用与登记
业务数据的翻新与备份
4
银行数据全生命周期管理目标
- 数据特性识别 - 使用规划设计 - 备份需求确认 - 使用周期确定 - 技术手段落实
-数据采集管理 -数据加工处理 -备份计划管理 -备份操作执行 -介质归档管理 -备份周期管理
•WEB-SERVER 日志(文本/XML) •用户打开页面 详细记录(文本) •系统日志(SYS LOG)
•中间件日志(文本, 每台服务器每个服务 一个) •交易日志(group文件 ,每台服务器50个) •程序报错日志(XML) •系统日志(SYSLOG)
•数据库日志(多 个文本) •系统日志 (SYSLOG) 数据库表
分析与使用:
分析:针对非结构化数据,能够完成各类逻辑分析(如:周期内同一事件的发 生次数、比例等)
使用:根据分析规则,能够产生各类、各级报警信息,并集成到监控系统,提 供业务运行状态实时数据及分析结果,提供业务运行特征分析结果;
38
虚拟设备VS 管道程序
❖ 开发和移植方面:管道兼容普通LINUX 及类UNIX 系统,而设备方式除了linux 通用外,每 一个UNIX都是一套新的设备程序。
❖ 日志采集能力方面:设备方式可以采集任何写入文件的日志,而管道方式只能采集 ”a+”( 无文件则创建,有文件则追加) 文件。
连接 网络转发、 动态分配, 后端状态
转换 快速转接、 转换,是否 有堵塞
服务 业务服务原 子交易,速 度、可靠
业务标识:可用于故障定位、容量系数、业务分析.......
9
银行数据生命周期管理:从源头控制与实施
日志标准化
日志分类:应用系统,应将交易流水日志、系统debug日志,系统
报错日志
日志分级:各类日志应设置级别控制,通过动态开关,控制日志写
7
应用系统数据管理协议、日志输出标准化........
有效运用各类数据的基础是对其进行全程管理与控制
8 系统间会话
业务标识设计:为业务全程分析埋下“线索”、染 色
短连接: 资源共用、容 量大、连接耗 时,关注异常 波动
长连接: 资源专用、效 率高,关注超 时及挂起状态
业务流程
单系统交易
请求: 请求发起端, 超时、成功 率
设计阶段落实数据管理:
提出应用系统数据管理规范 定义应用系统数据管理协议 明确不同类型数据的管控手段
明确各类数据的特性
投产前明确数据管控手段: 确定各类数据的存在环境 系统及业务数据的采集方式 设计各类数据的备份与恢复
生产数据性能及容量管理
生产数据管理备份与归档:生数产据数在据线的 、备 近份 线与 、归 下档 线管理
诊断分析的需求
交易流水内容丰富 交易流水信息保存在数据库中 交易流水表以Inset操作为主
➢ 数据分类及采集 ➢ 日志类采集及使用 ➢ 报文类采集及使用
日志类数据采集:生产日志分析与监控的需求
日志类数据采集:日志关键字分析使用样例
日志类数据采集:非结构数据结构化的使用
➢ 数据分类及采集 ➢ 日志类采集及使用 ➢ 报文类采集及使用
通过网络报文分析、观察关键业务会话状态
28
日志+报文+数据库
综合监控、聚焦定位
综 估值预警、隐患分析
合
采
运行采集、容量管理
集
使
数据归档、查询服务
用 业务分析、创新支持
29
运行状态综合展现:观测发现、聚焦定位、诊断分析
通过各种视图有效运用,能够把监控系统采集到的各类数据,展示给不同角色的 用户,在日常运维、重保值守,故障影响分析、故障定向定位等方面发挥重要作用。
webServer 中间件 应用日志
采集,查询,归档 ,实时监控
OVO ITM
采集,查询, 实时监控
OMNIBUS
采集,查询, 实时监控,归
档
交易流水 统一监控平台
采集,查询, 实时监控,归
档
BPC WRT
采集,查询, 实时监控,归
档
归档周期 6个月
6个月 12个月 1个月 6个月 12个月 6个月
出的粒度
日志格式:各类应用日志,尤其是系统报错日志,应遵守统一的格
式要求
日志传输:日志写出并传输的方式,应采用全行统一的传输方式
交易报文标准化
统一交易标识:全行统一的交易标识,在多系统中传输,便于监控 和故障诊断
报文加密策略:对中间件、应用服务器的报文加密进行统一规定
数据管理基础:结构化/非结构化数据可采集、可加工、可分析利用
系统间会话网络报文、交易报文、文本日志、数据库流水
目录
1 银行数据全生命周期管理探讨
2 海量非结构化数据特点及使用
▪ 动态数据、静态数据、结构化、非结构化、多层分布、逻辑相关 ▪ 运行监控、趋势分析、容量管理、数据归档、查询统计、运营分析
3 海量非结构化数据技术要点与实现
16
➢ 数据分类及采集 ➢ 日志类采集及使用 ➢ 报文类采集及使用
类型 syslog
Oracle-trace 文本 性能 事件 资产
网络报文
采集方式 syslogTCP syslogUDP
tail tail tail tail tail tail
日志来源 网络 防火墙
webServer APP服务器 DBServer
管理目标 采集,查询,归档
DB
采集,查询,归档 ,实时监控
短信平台系统(MSG)
贵金属交易系统P(bGIOnLsDer)tDBLog模块 (渠道、业务种类)
核心业务系统(ECAS)
Cal总l-Center系统(CCS) 前
总行平大前置系统(EBIP) 总行台中间业务平台(EBMP) 新网层络银行系统(NBANK)
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
网络端口
• 监听所有端口 • TCP/UDP • syslog, SNMP,
IMAP, POP3, JMS
数据输入
计算机文件
• 监测运行的文件 • 批量上传文件 • 网络,应用,服
务器和设备日志
自定义脚本与APIs
• 可设定测试 • WMI, perfmon, AD,
LDAP, SQL/DBI, OPSEC, LEA, JMX, VMware, Powershell