【CN109840253A】企业级大数据平台架构【专利】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
CN 109840253 A
权 利 要 求 书
2/2 页
了唯一的代理入口 ,Knox本质充当集群认证网关的 角色 ,隐匿部署细节 ,统一接管所有HTTP 请求;Knox通过内置的过滤器来处理URL,支持LADAP进行用户身份认证,HDFS、Yarn、Spark、 Hue的web ui都以新建Service的形式加入Knox网关。
低成本提升企业在实际生产中对大数据处理、提 取、存储、数据挖掘的规范性和效率。大数据平台 基于Hadoop、Spark、Hive、Hbase等Apache开源项 目 ,可以运行在可拓展的普通硬件上,构建了一 个完整的 大数 据数 据技术体 系 ,包括数 据存贮 、 离线计算、实时计算和机器学习平台。可以满足 多种复杂条件下的企业计算任务。该平台还包括 一套完整的matedata存储、数据质量监督、ETL流 程标准等数据处理规范以及核心数据保护、数据 权限控制等策略方案以保证数据质量规范性和 数据数据资产的安全。
代理人 刘萍
(51)Int .Cl . G06F 16/24(2019 .01) G06F 16/27(2019 .01)
ຫໍສະໝຸດ Baidu
(10)申请公布号 CN 109840253 A (43)申请公布日 2019.06.04
( 54 )发明 名称 企业级大数据平台架构
( 57 )摘要 本发明涉及企业级大数据平台架构,旨在以
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910021944 .X
(22)申请日 2019 .01 .10
(71)申请人 北京工业大学 地址 100124 北京市朝阳区平乐园100号
(72)发明人 王劲松 张建
(74)专利代理机构 北京思海天达知识产权代理 有限公司 11203
权利要求书2页 说明书6页 附图4页
CN 109840253 A
CN 109840253 A
权 利 要 求 书
1/2 页
1 .企业级大数据平台架构,其特征在于: 在整体的技术选型中是以Hadoop作为基础的 ; 通过js埋点来记录日志; 结构化的数据即存储在RDBMS中的数据用Sqoop来传输 ,Sqoop被设计 用于在一个 Hadoop生态系统与关系型数据库管理系统RDBMS中的结构化数据存储之间传输数据;作为 Hadoop生态系统不可或缺的一部分,Sqoop启用了一个MapReduce作业来执行任务; 非结构化的 数据和半结构化的 数据 用Flume ,Flume的 使 用不只限 于日 志数据 ,还被 用 来传输事件数据;而kafka作为一个消息订阅系统,配合Flume作为实时数据处理的数据源; 数 据的 存储以 HDF S为主 ,一个HDF S集群是由 一个Namenod e 和一定数目的 Da ta nod e组 成,Namenode是一个中心服务器,负责管理文件命名空间和的寻址路径;Datanode是实际存 储数据的节点,数据以Block的形式存储在上面,通过Zookeeper实现多个Namenode作为热 备,在Namenode挂掉后通过选举产生新的Namenode实现高可用;通过Sqoop和Flume从数据 源传递过来的数据都会存储在HDFS上; Hbase也是Master/Slave的架构,Master节点负责维护表和数据的位置,存储数据的节 点叫RegionServer,保存的表的数据直接存储在HDFS上,每次客户端通过Zookeeper获得需 要数据所在的RegionServer然后直接和其通讯进行查询; GreenPlum作为数据仓库的同时,也作为支持实时查询的数据库; 数据处理分为离线处理平台、实时处理平台和机器学习平台; 大数据平台应该以 Ya rn作为 调度基础 ,计算的 原始数据和计算结果存储在HDFS上 ;大 数 据平台 支持多 种计算工具 ,以 hue进行统一的 调度管理 和任务监控 ,构成了离线计算 引 擎; 以Flume+Kafka作为实时计算的数据提供,Flume+kafka架构会实时同步新的数据到实 时计算引擎;而实时计算引擎的技术框架则采用Storm+SparkStreaming+Flink来实现, 大数据平台必须加入机器学习算法平台;其架构如下: 基础架构层 ,提供了计算资源调度和数据资源服务两个主要功能 ,基础架构层能同时 支持不同 硬件资源调度 ;借助虚拟化技术 ,机器学 习平台 将同 一个硬件设备在不同的 任务 中进行资源共享; 任务调度层 ,将不同的 机器学 习算法工具连接起来 ,通过DAG 调度的 形式 ,帮助 用户完 成复杂的模型运算,减少开发难度; 算法 层 ,通过开源算法框架 ,根据企业自 身业务需求 ,实现各 种算法定 制化 、模块化封 装 ;每一个模块都采用了统一的数据接口 ,同时提供了灵活的参数供 用户进行调整 ; API层,为算法调度提供统一的入口 ,对外提供统一的数据接口 ;数据接口应该遵循 Restful的风格 ,整齐划一 ;同时提供支持DSL查询接口 ,支持以 SQL的方式来拉取数据 ;同时 数据接口还应当开放数据平台任务调度 ,任务提交的功能 ;数据查询的接口 用Flask+ SQLalchemy来实现,或者SpringBoot+Mybatis,数据平台任务提交用Spark自带的livy服务 来实现; 数据平台上增加安全认证,安全认证架构采用Kerberos+LDAP服务+Knox网关。 2 .根据权利要求1所述的平台,其特征在于:采用LDAP提供检索。 3 .根据权利要求1所述的平台,其特征在于:Apache Knox Gateway为Hadoop集群提供
4 .根据权利要求1所述的 平台 ,其特征在于 :在使 用Kerberos协议认证的集群中 , Client和Server通过一个独立服务来进行相互之间的认证,同时Kerberos还能将服务之间 的全部通信进行加密;Kerberos也支持LDAP的用户认证,方便的进行用户权限的管理。
5 .根据权利要求1所述的平台,其特征在于:用FreeIPA来部署以上所有服务,形成了一 个以LDAP为数据存储后段,Kerberos为验证前段,Bind为主机识别,同时还提供了统一的命 令行管理工具和Web洁面的集成信息系统。