大数据分析服务平台实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
该处理机制的核心思想是, 利用 oracle 数据库联机响应能力强的特点,将模型管理、查询队列等涉及联机交互的操作数据部署 在 oracle 上,海量的业务数据仍保留在数据数据库上。通过 ETL 调度+消息队列的方式,将 oracle 的“快”数据以及数据仓库的”海量 “数据粘合起来。
具体流程是: 用户通过前台提交查询请求,该查询请求存放在 oracle 数据库中;在 ETL 调度服务器起服务,每间隔一段时间(可 参数配置)扫描 oracle 的队列表,若发现待处理的请求,则根据优先级和并发数抓取一定数量的请求进行查询;ETL服务器上查询
Key words: data analysis; usability; service-based; customization; large data visualization
大数据作为一种重要企业资产,其重要性已深入人心。随之涌现了大批挖掘平台和工具,帮助业务部门挖掘大数据的潜在业 务价值。由于数据挖掘工作本身有很强的专业性,对分析人员技能要求比较高,且存在重算法而轻交互的情况,一定程度上制约 了大数据分析的推广。“如何降低使用门槛,使更多业务人员都能分享到大数据建设成果并应用到实际业务中”是大数据建设过程 中所面临的一个重要课题。
应用领域层:分析平台的服务对象,可以是各业务领域的业务人员,也可以是相关业务领域的其它应用。
2 技术实现
2.1 综述
数据分析平台力求将高深的大数据挖掘以一种更加简洁的方式提供给广大用户并提供门户式的访问路径,使更多基层用户 能分享到大数据建设的成果并应用到工作中。图 2 列出了本文的总体业务价值和技术体系,接下来将围绕着“提升用户体验”、“整 合资源”、”系统灵活可订制”这 3 个方面深入进行探讨。
作为以上问题的一种解决对策,该文叙述了一个基于服务的数据分析平台的构建思路。以”易“为切入,结合”提升用户体 验”、“整合资源”、“系统灵活可订制”这 3 个主要着眼点展开平台的设计和构建工作,综合运用了消息队列、多级缓存、数据可视化、 批量联机和负载均衡等技术手段。
1 总体框架
整个框架根据数据的流转进行了分层,具体包括资源层、核心功能层,基础服务层,服务构件层和应用领域层(如图 1 所示)。 各层的定位和技术实现如下: 资源层:数据分析平台的资源包括2大类,一类是数据资源,包括数据仓库、hadoop 等,平台对于这类资源访问的技术手段以 “数据是否落地”为标准分为 2 种,1 种是通过消息队列的异步联机查询,另 1 种是通过下数加载的方式实现本地库的访问;平台访 问的另一类资源是系统资源,比如:SAS EG 等分析工具,对于该类资源的访问采用门户的方式进行集成,提供入口链接或基于服 务的调用方式进行整合。 基础服务层:作为平台的服务基础,围绕着“提高联机响应、简化用户操作、确保系统稳定、降低维护成本和监控”等设计原则,
在数据分析的实际操作时,为确保样本数据的代表性,采样结果集往往非常大,如何对结果集进行有效管理,提高类似查询的 效率也是平台在建设过程中需要解决的问题。
为实现结果的复用,提高业务数据的访问效率,数据分析平台对缓存进行了分层设计和实现。 根据使用特点,分为以下 3 个层次。 1) 本地缓存:定位为用于保存一些静态的参数,比如:字典类参数。在应用服务器启服务时读取 oracle 参数表的数值加载到本 地内存中,供联机访问。 2) 分布式缓存:定位为存放一些动态变化且访问频次较高的数据。比如:用户最关心的模型信息,考虑到该信息访问频繁且由 于用户可以实时部署模型存在动态变化的特点,为此在向数据库新增模型数据的同时向分布式缓存中写入模型信息,既提高了访 问效率同时也减轻了数据库的压力。 3) 文件缓存:定位用于保存每次模型的查询结果。为提高查询结果的复用性,数据分析平台采用文本的方式保留查询结果。 后续再次查询历史结果则可直接访问文件缓存即可,减少了再次查询的开销,提高了查询效率。
2.2.3 通过大数据可视化技术直观展现数据的内在联系
对于大数据分析而言,传统的表格形式无法直观的发现隐藏在复杂、多维数据后的规律,需要有一种直觉的、可交互的可视化 环境来帮助深度挖掘数据价值。
大数据可视化的工作分为2个层面:静态展示和交互性。 其中,静态展示的实践可按照以下 3 个场景有针对性的开展: 1) 将数值图形化:当 1 个指标时,将数据的大小以图形的方式表现 2) 指标关系图形化:当存在多个指标时,挖掘指标之间的关系并将其图形化,可提升图表的可视化深度。 3) 按空间可视化:当图表数据存在地域信息并需要突出表现时,可用地图将空间可视化。
DING Xian
(Software Development Center, Industrial Commercial Bank of China Ltd, Shanghai 201206,China)
Abstract: In recent years, under the multiple pressure of the weak growth in the traditional banking business and the Internet fi⁃ nancial impact, the trend that the service of Chinese banking is actively updated to the intelligent level is increasingly obvious. The concept of the Banking service is gradually changing from "service is the god" to "the experience is the god" . As an impor⁃ tant part of intelligent transformation, the analysis of large data can extract valuable information by mining among the massive da⁃ ta, which can help the bank to make competitive decisions. However, the process of the data analysis is very professional and re⁃ quires higher skills. How to combine the highly professional data analysis and the ease of use in order to share the achievements of the large data construction among the users is a widely studied topic. This paper takes the design concept of " good experience , ease of operation, high availability and the resue of service" as the starting point, combining some key technical measures which include the design of dual data souce and the framework of the asynchronous query ,etc, parameterized interface configura⁃ tion and the on-line component techniques, expounds the idea of constructing the service-based platform of the data analysis.
2.2 提升数据分析用户体验方面的技术实现
图 2 业务价值和技术体系图
2.2.1 基于 OLAP+OLTP 的双数据源消息队列设计助力数据分析
数据服务平台是基于 OLAP 系统开展数据分析工作。相较OLTP系统,OLAP的特点是存放海量数据,但联机响应效率 相对较慢。为了确保数据分析平台有良好的用户体验,综合 OLAP+OLTP 的特点,构建了基于双数据源的消息队列处理机制。
ISSN 1009-3044 第Co1m1pu卷ter第Kn0o1w期ledg(e20an1d5T年ech0n1ol月og)y 电脑知识与技术 Vol.11, No.1, January 2015
E-mail: jslt@dnzs.net.cn Computer Khnttopw:/le/wdgwewa.nddnzTse.cnhento.clongy 电脑知识与技术
2
数据库与信息管理
本栏目责任编辑:代 影
第 11 卷第 01 期 (2015 年 01 月)
Computer Knowledge and Technology 电脑知识与技术
完成后,生成文件放到外置存储,同时更新 oracle 上消息队列表中的执行状态,供前台联机访问。
2.2.2 通过多级缓存设计提高数据分析采样访问效率
2.3 系统灵活可定制方面的技术实现
2.3.1 基于”双线程调度+用户在线定制“的数据分析预约采样功能
预约采样功能提供给分析人员在将来某个时间点或某段时间内周期性运行取数模型的功能。主要解决数据分析过程中 2 个 业务问题:
核心功能层:本层提供了与用户存在交互的联机功能。功能的设置贴近数据分析工作,以简洁的操作为设计目标。具体技术 方面,包括跨 hadoop&TD 数据库的向导式功能、可灵活在线定制的模型、集成挖掘工具的分析工具集等。
服务构件层:数据分析平台对服务展现方式和服务提供方式也进行了构件化。具体技术包括:基于会话同步的界面嵌入、基于 接口调用的异步查询以及基于 echarts 的大数据可视化构件应用。
收稿日期:2014-10-20 作者简介:丁贤(1979-),男,上海人,助理工程师,硕士,主要研究方向为大数据分析。
本栏目责任编辑:代 影
数据库与信息管理
百度文库
1
Computer Knowledge and Technology 电脑知识与技术
第 11 卷第 01 期 (2015 年 01 月)
综合运行了各类技术和算法为核心功能层提供保障。具体技术方式包括:基于双数源的消息队列、基于内存混存和文件缓存的多 级缓存、基于双线程的预约定制功能、实现批量和联机资源动态调优的作业调度以及为减少维护成本而基于监听器的日志统计功 能。
Tel:+86-551-65690963 65690964
大数据分析服务平台实践
丁贤
(中国工商银行股份有限公司 软件开发中心, 上海 201206)
摘要:近年来,在传统银行业务增长乏力及互联网金融冲击等多重压力下,中国银行业积极向智能化转型的趋势日渐明 显。银行业务服务理念也正逐渐从“服务为王”向“体验为王”转变。作为智能化转型的一个重要环节 , 大数据分析通过对 海量数据的挖掘提炼出有价值的信息,从而帮助银行做出有竞争性的决策。但是,数据分析的过程具有很强的专业性,对 使用人员的技能要求较高。如何将专业性很强的数据分析和易用性结合,让各级用户都能分享到大数据建设的成果是一 个业内都在研究的课题。该文以”体验好、操作易、可用性高和服务复用”的设计理念为切入点,结合双数据源架构设计、异 步查询框架、参数化界面配置和联机构件等技术手段的支撑,阐述了基于服务的数据分析平台的构建思路。 关键词: 数据分析;易用性;基于服务;可定制;大数据可视化 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0001-04 DOI:10.14004/j.cnki.ckt.2015.0001 The Practice of the Big Data Analysis Service Platform
具体流程是: 用户通过前台提交查询请求,该查询请求存放在 oracle 数据库中;在 ETL 调度服务器起服务,每间隔一段时间(可 参数配置)扫描 oracle 的队列表,若发现待处理的请求,则根据优先级和并发数抓取一定数量的请求进行查询;ETL服务器上查询
Key words: data analysis; usability; service-based; customization; large data visualization
大数据作为一种重要企业资产,其重要性已深入人心。随之涌现了大批挖掘平台和工具,帮助业务部门挖掘大数据的潜在业 务价值。由于数据挖掘工作本身有很强的专业性,对分析人员技能要求比较高,且存在重算法而轻交互的情况,一定程度上制约 了大数据分析的推广。“如何降低使用门槛,使更多业务人员都能分享到大数据建设成果并应用到实际业务中”是大数据建设过程 中所面临的一个重要课题。
应用领域层:分析平台的服务对象,可以是各业务领域的业务人员,也可以是相关业务领域的其它应用。
2 技术实现
2.1 综述
数据分析平台力求将高深的大数据挖掘以一种更加简洁的方式提供给广大用户并提供门户式的访问路径,使更多基层用户 能分享到大数据建设的成果并应用到工作中。图 2 列出了本文的总体业务价值和技术体系,接下来将围绕着“提升用户体验”、“整 合资源”、”系统灵活可订制”这 3 个方面深入进行探讨。
作为以上问题的一种解决对策,该文叙述了一个基于服务的数据分析平台的构建思路。以”易“为切入,结合”提升用户体 验”、“整合资源”、“系统灵活可订制”这 3 个主要着眼点展开平台的设计和构建工作,综合运用了消息队列、多级缓存、数据可视化、 批量联机和负载均衡等技术手段。
1 总体框架
整个框架根据数据的流转进行了分层,具体包括资源层、核心功能层,基础服务层,服务构件层和应用领域层(如图 1 所示)。 各层的定位和技术实现如下: 资源层:数据分析平台的资源包括2大类,一类是数据资源,包括数据仓库、hadoop 等,平台对于这类资源访问的技术手段以 “数据是否落地”为标准分为 2 种,1 种是通过消息队列的异步联机查询,另 1 种是通过下数加载的方式实现本地库的访问;平台访 问的另一类资源是系统资源,比如:SAS EG 等分析工具,对于该类资源的访问采用门户的方式进行集成,提供入口链接或基于服 务的调用方式进行整合。 基础服务层:作为平台的服务基础,围绕着“提高联机响应、简化用户操作、确保系统稳定、降低维护成本和监控”等设计原则,
在数据分析的实际操作时,为确保样本数据的代表性,采样结果集往往非常大,如何对结果集进行有效管理,提高类似查询的 效率也是平台在建设过程中需要解决的问题。
为实现结果的复用,提高业务数据的访问效率,数据分析平台对缓存进行了分层设计和实现。 根据使用特点,分为以下 3 个层次。 1) 本地缓存:定位为用于保存一些静态的参数,比如:字典类参数。在应用服务器启服务时读取 oracle 参数表的数值加载到本 地内存中,供联机访问。 2) 分布式缓存:定位为存放一些动态变化且访问频次较高的数据。比如:用户最关心的模型信息,考虑到该信息访问频繁且由 于用户可以实时部署模型存在动态变化的特点,为此在向数据库新增模型数据的同时向分布式缓存中写入模型信息,既提高了访 问效率同时也减轻了数据库的压力。 3) 文件缓存:定位用于保存每次模型的查询结果。为提高查询结果的复用性,数据分析平台采用文本的方式保留查询结果。 后续再次查询历史结果则可直接访问文件缓存即可,减少了再次查询的开销,提高了查询效率。
2.2.3 通过大数据可视化技术直观展现数据的内在联系
对于大数据分析而言,传统的表格形式无法直观的发现隐藏在复杂、多维数据后的规律,需要有一种直觉的、可交互的可视化 环境来帮助深度挖掘数据价值。
大数据可视化的工作分为2个层面:静态展示和交互性。 其中,静态展示的实践可按照以下 3 个场景有针对性的开展: 1) 将数值图形化:当 1 个指标时,将数据的大小以图形的方式表现 2) 指标关系图形化:当存在多个指标时,挖掘指标之间的关系并将其图形化,可提升图表的可视化深度。 3) 按空间可视化:当图表数据存在地域信息并需要突出表现时,可用地图将空间可视化。
DING Xian
(Software Development Center, Industrial Commercial Bank of China Ltd, Shanghai 201206,China)
Abstract: In recent years, under the multiple pressure of the weak growth in the traditional banking business and the Internet fi⁃ nancial impact, the trend that the service of Chinese banking is actively updated to the intelligent level is increasingly obvious. The concept of the Banking service is gradually changing from "service is the god" to "the experience is the god" . As an impor⁃ tant part of intelligent transformation, the analysis of large data can extract valuable information by mining among the massive da⁃ ta, which can help the bank to make competitive decisions. However, the process of the data analysis is very professional and re⁃ quires higher skills. How to combine the highly professional data analysis and the ease of use in order to share the achievements of the large data construction among the users is a widely studied topic. This paper takes the design concept of " good experience , ease of operation, high availability and the resue of service" as the starting point, combining some key technical measures which include the design of dual data souce and the framework of the asynchronous query ,etc, parameterized interface configura⁃ tion and the on-line component techniques, expounds the idea of constructing the service-based platform of the data analysis.
2.2 提升数据分析用户体验方面的技术实现
图 2 业务价值和技术体系图
2.2.1 基于 OLAP+OLTP 的双数据源消息队列设计助力数据分析
数据服务平台是基于 OLAP 系统开展数据分析工作。相较OLTP系统,OLAP的特点是存放海量数据,但联机响应效率 相对较慢。为了确保数据分析平台有良好的用户体验,综合 OLAP+OLTP 的特点,构建了基于双数据源的消息队列处理机制。
ISSN 1009-3044 第Co1m1pu卷ter第Kn0o1w期ledg(e20an1d5T年ech0n1ol月og)y 电脑知识与技术 Vol.11, No.1, January 2015
E-mail: jslt@dnzs.net.cn Computer Khnttopw:/le/wdgwewa.nddnzTse.cnhento.clongy 电脑知识与技术
2
数据库与信息管理
本栏目责任编辑:代 影
第 11 卷第 01 期 (2015 年 01 月)
Computer Knowledge and Technology 电脑知识与技术
完成后,生成文件放到外置存储,同时更新 oracle 上消息队列表中的执行状态,供前台联机访问。
2.2.2 通过多级缓存设计提高数据分析采样访问效率
2.3 系统灵活可定制方面的技术实现
2.3.1 基于”双线程调度+用户在线定制“的数据分析预约采样功能
预约采样功能提供给分析人员在将来某个时间点或某段时间内周期性运行取数模型的功能。主要解决数据分析过程中 2 个 业务问题:
核心功能层:本层提供了与用户存在交互的联机功能。功能的设置贴近数据分析工作,以简洁的操作为设计目标。具体技术 方面,包括跨 hadoop&TD 数据库的向导式功能、可灵活在线定制的模型、集成挖掘工具的分析工具集等。
服务构件层:数据分析平台对服务展现方式和服务提供方式也进行了构件化。具体技术包括:基于会话同步的界面嵌入、基于 接口调用的异步查询以及基于 echarts 的大数据可视化构件应用。
收稿日期:2014-10-20 作者简介:丁贤(1979-),男,上海人,助理工程师,硕士,主要研究方向为大数据分析。
本栏目责任编辑:代 影
数据库与信息管理
百度文库
1
Computer Knowledge and Technology 电脑知识与技术
第 11 卷第 01 期 (2015 年 01 月)
综合运行了各类技术和算法为核心功能层提供保障。具体技术方式包括:基于双数源的消息队列、基于内存混存和文件缓存的多 级缓存、基于双线程的预约定制功能、实现批量和联机资源动态调优的作业调度以及为减少维护成本而基于监听器的日志统计功 能。
Tel:+86-551-65690963 65690964
大数据分析服务平台实践
丁贤
(中国工商银行股份有限公司 软件开发中心, 上海 201206)
摘要:近年来,在传统银行业务增长乏力及互联网金融冲击等多重压力下,中国银行业积极向智能化转型的趋势日渐明 显。银行业务服务理念也正逐渐从“服务为王”向“体验为王”转变。作为智能化转型的一个重要环节 , 大数据分析通过对 海量数据的挖掘提炼出有价值的信息,从而帮助银行做出有竞争性的决策。但是,数据分析的过程具有很强的专业性,对 使用人员的技能要求较高。如何将专业性很强的数据分析和易用性结合,让各级用户都能分享到大数据建设的成果是一 个业内都在研究的课题。该文以”体验好、操作易、可用性高和服务复用”的设计理念为切入点,结合双数据源架构设计、异 步查询框架、参数化界面配置和联机构件等技术手段的支撑,阐述了基于服务的数据分析平台的构建思路。 关键词: 数据分析;易用性;基于服务;可定制;大数据可视化 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0001-04 DOI:10.14004/j.cnki.ckt.2015.0001 The Practice of the Big Data Analysis Service Platform