实时数据仓库平台的制作方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图片简介:
本技术介绍了一种实时数据仓库平台,该实时数据仓库平台包括:业务数据采集系统、日志数据采集系统、分析系统;业务数据采集系统包括candu模块,candu模块对业务数据的变更日志进行同步解析,并将解析后的数据存储至分析系统的kudu存储模块中;日志数据采集系统,用于收集日志数据、对日志数据进行计算,并将计算结果存储至kudu存储模块中;kudu 存储模块根据存储的解析后的数据和计算结果进行实时的数据分析。本技术通过candu模块实时收集分布在各个业务系统上的业务数据的变更日志,实现了业务数据的实时同步。
技术要求
1.一种实时数据仓库平台,其特征在于,包括:业务数据采集系统、日志数据采集系统、分析系统;
所述业务数据采集系统包括candu模块,所述candu模块对业务数据的变更日志进行同步解析,并将解析后的数据存储至所述分析系统的kudu存储模块中;
所述日志数据采集系统,用于收集日志数据、对所述日志数据进行计算,并将计算结果
存储至kudu存储模块中;
所述kudu存储模块根据存储的所述解析后的数据和所述计算结果进行实时的数据分析。
2.根据权利要求1所述的实时数据仓库平台,其特征在于,所述日志数据采集系统包括:
kafka模块,所述日志数据写入所述kafka模块中。
3.根据权利要求2所述的实时数据仓库平台,其特征在于,所述日志数据采集系统还包括:
spark streaming模块,读取所述kafka模块中的所述日志数据、进行实时计算,并将所述计算结果存储至kudu存储模块中。
4.根据权利要求1所述的实时数据仓库平台,其特征在于,所述业务数据采集系统还包括:
业务数据库,用于记录业务数据的变更日志;
canal模块,通过模拟与业务数据库的交互协议,使得所述业务数据库向所述canal模块推送所述变更日志。
5.根据权利要求1所述的实时数据仓库平台,其特征在于,所述分析系统还包括:
impala分析引擎,利用所述impala分析引擎以实现实时的数据分析。
6.根据权利要求1所述的实时数据仓库平台,其特征在于,所述candu模块包括:
Operation子模块,用于通过kudu原生api的异步写入模式,将所述解析后的数据存储至所述kudu存储模块中。
7.根据权利要求6所述的实时数据仓库平台,其特征在于,所述candu模块还包括:
读取子模块,用于从所述candu模块中存储的配置表;
Exchange子模块,用于进行配置表数据的初始化同步。
8.根据权利要求6所述的实时数据仓库平台,其特征在于,所述candu模块还包括:
Manager子模块,用于管理多个Task线程,所述Operation子模块在Task线程中将所述解析后的数据存储至所述kudu存储模块中。
技术说明书
实时数据仓库平台
技术领域
本技术涉及网络技术领域,具体来说,涉及一种实时数据仓库平台。
背景技术
在现有的针对数据仓库的技术方案中,都是采用离线的、且不可更新的分布式hive数据仓库,很难做到实时数据仓库的级别,并且不能做到实时同步业务数据库。如果不能保证时效性,则不能对现有的业务数据分析提供更多改的进。除此之外,现有的数据仓库,不能很方便地被业务人员使用。
整体来说,现有的日志系统存在以下缺陷:1)现有系统大都是hive的离线式的分布式数据仓库,不能满足用户的更新与记录级别的插入功能。2)性能差。现有的hive分布式数据仓库,小数据量的查询性能极差,甚至达不到传统关系数据仓库的性能。3)日志实时数据与历史数据融合问题。现有数据仓库都是离线数据,与实时日志数据无法融合,这样间接阻碍了业务的全数据的分析与挖掘。
针对相关技术中的上停问题,目前尚未提出有效的解决方案。
技术内容
针对相关技术中的上述问题,本技术提出一种实时数据仓库平台,能够实现业务数据库的实时同步。
本技术的技术方案是这样实现的:
根据本技术的一个方面,提供了一种实时数据仓库平台,包括:业务数据采集系统、日志数据采集系统、分析系统;业务数据采集系统包括candu模块,candu模块对业务数据的变更日志进行同步解析,并将解析后的数据存储至分析系统的kudu存储模块中;日志数据采集系统,用于收集日志数据、对日志数据进行计算,并将计算结果存储至kudu存储模块中;kudu存储模块根据存储的解析后的数据和计算结果进行实时的数据分析。
在一个实施例中,日志数据采集系统包括:kafka模块,日志数据写入kafka模块中。
其中,日志数据采集系统还包括:spark streaming模块,读取kafka模块中的日志数据、进行实时的计算,并将计算结果存储至kudu存储模块中。
在一个实施例中,业务数据采集系统还包括:业务数据库,用于记录业务数据的变更日志;canal模块,通过模拟与业务数据库的交互协议,使得业务数据库向canal模块推送变更日志。
在一个实施例中,分析系统还包括:impala分析引擎,利用impala分析引擎以实现实时的数据分析。
在一个实施例中,candu模块包括:Operation子模块,用于通过kudu原生api的异步写入模式,将解析后的数据存储至kudu存储模块中。
其中,candu模块还包括:读取子模块,用于从candu模块中存储的配置表;Exchange子模块,用于进行配置表数据的初始化同步。
其中,candu模块还包括:Manager子模块,用于管理多个Task线程,Operation子模块在Task线程中将解析后的数据存储至kudu存储模块中。
本技术通过candu模块实时收集分布在各个业务系统上的业务数据的变更日志,实现了业务数据的实时同步;利用canal模块、candu模块完成业务数据库数据的实时同步,并利用kafka模块作为日志传输工具发送日志,吞吐量大,且不易丢失日志;利用kudu存储模块可以完成数据的修改,支持增删查改功能;利用分布式查询引擎的impala分析引擎,可以做到实时同步与实时分析;将数据实时同步或写入kudu存储模块,通过impala分析引擎查询kudu存储模块,提高了查询性能;同时,实现了业务数据的实时同步与日志数据的实时同步,能够完成全域的数据融合,帮助用户全面准确的进行数据分析。
附图说明