最新大数据平台架构-巨衫
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 技术实现框架
1.1大数据平台架构
1.1.1大数据库是未来提升业务能力的关键要素
以“大数据”为主导的新一波信息化浪潮正席卷全球,成为全球范围内加速企业技术创新、推动政府职能转变、引领社会管理变革的利器。目前,大数据技术已经从技术研究步入落地实施阶段,数据资源成为未来业务的关键因素。通过采集和分析数据,我们可以获知事物背后的原因,优化生产/生活方式,预知未来的发展动态。
经过多年的信息化建设,省地税已经积累了丰富的数据资源,为下一步的优化业务、提升管理水平,奠定了坚实的基础。
未来的数据和业务应用趋势,大数据才能解决这些问题。
《1.巨杉软件SequoiaDB产品和案例介绍v2》P12 “银行的大数据资产和应用“,说明税务数据和业务分析,需要用大数据解决。
《1.巨杉软件SequoiaDB产品和案例介绍v2》P14 “大数据与传统数据处理”,说明处理模式的差异。
1.1.2大数据平台总体框架
大数据平台总体技术框架分为数据源层、数据接口层、平台架构层、分析工具层和业务应用层。如下图所示:
(此图要修改,北明)
数据源层:包括各业务系统、服务系统以及社会其它单位的结构化数据和非结构化数据;
数据接口层:是原始数据进入大数据库的入口,针对不同类型的数据,需要有针对性地开发接口,进行数据的缓冲、预处理等操作;
平台架构层:基于大数据系统存储各类数据,进行处理?;
分析工具层:提供各种数据分析工具,例如:建模工具、报表开发、数据分析、数据挖掘、可视化展现等工具;
业务应用层:根据应用领域和业务需求,建立分析模型,使用分析工具,发现获知事物背后的原因,预知未来的发展趋势,提出优化业务的方法。例如,寻找服务资源的最佳配置方案、发现业务流程中的短板进行优化等。
1.1.3大数据平台产品选型
针对业务需求,我们选择巨杉数据库作为大数据基础平台。
1.1.3.1传统数据库与大数据库的差异(丰富一下内容,说明应该选
择大数据平台)
传统的关系型数据库,只能存储结构化数据,在当前互联网快速发展的时代,僵硬的数据模型已经无法适应快速开发、快速迭代的互联网思维。同时,越来越广阔的移动无线网络覆盖,不断提升的上网体验,人们的生活已经与网络连接起来,现在人们在互联网产生的数据,比较过去正在以几何倍数增长。
1.1.3.2巨杉的产品框架()
巨杉的简要介绍。
产品框架下的组件的简要介绍,说明由哪些东西组成,实现哪些功能。
1.1.3.3产品比较?(与类似产品的竞争优势?)
SequoiaDB作为一款拥有完全自主知识产权的文档型分布式数据库,天生具备高性能、高可用的特性。SequoiaDB采用分片技术为数据库提供横向扩展机制,这个分片过程对应用程序来说是透明的。分片分配数据跨越多个物理分区,每个
分区也即分片。分片是为了替SequoiaDB 部署解决单台服务器硬件资源受限问题,如内存或者磁盘I/O 瓶颈,不会增加应用程序复杂性。
SequoiaDB相比其他数据库的独有功能如下:
1.1.3.4巨杉的特点?()
SequoiaDB不仅在性能上领先业界其他的非关系型数据库,对比其他数据库,SequoiaDB提供了非常多的独有功能:
1)灵活的数据类型
SequoiaDB采用文档类型数据模型(对象存储),将程序中的对象以原生的方式保存在数据库中,并且可以对其中而已属性或子对象进行检索匹配,可以大幅度弱化复杂的关系模型,加快应用的开发速度,并减少系统的运维成本。
灵活的数据类型
2)统一管理结构化数据和海量小文件
在过去,企业构建一个内容管理系统,基本是一个关系型数据库+存储这样的组合。这种构建方法,在过去数据量不大,并发数不高的情况下,系统还能运行得比较平稳。但是随着时间的推移,需要接入该系统的业务会越来越多,需要管理的文件和信息量都开始开始激增,并且随着查询的并发量增加,这时候,按照传统方法构建的系统,性能、扩容能力都无法满足需求。
SequoiaDB是一款以BSON数据类型作为底层存储格式的文档型数据库。
BSON格式本身是一种弱Schema的数据类型,一条BSON记录里面,可以包含各种类型的数据,如整型、字符型、浮点型和二进制类型的数据。用户可以利用BSON这种特性,将像图片,音频这种小文件以二进制类型放到一个BSON记录里面,同时将对文件的描述信息也存储在同一个BSON记录上,形成一条完整的信息存储在SequoiaDB中。
结构化数据与非结构化数据存储在同一条记录上这种利用BSON特性的存储方法,可以有效避免由于数据需要存储在两个地方(数据库+存储),中间需要处理复杂的事务逻辑,并且从根本上避免了信息孤岛产生的可能。非结构化数据与结构化数据整合在一起,形成一条完整的记录存储。
3)双存储引擎,简化系统架构
SequoiaDB数据库支持BSON结构存储和块数据存储。
当用户需要存储一些结构化数据时,可以选择使用BSON结构将数据存储在SequoiaDB中。当用户需要将大文件(超过16M)存储在SequoiaDB中时,可以选择块存储模式,将文件存储在数据库中。
如果用户需要构建一个既需要存储结构化信息,有需要管理大量大文件的系统时,SequoiaDB双存储引擎这个特性,能帮助用户快速搭建一个高性能、高可用的系统,并且整个系统组件简单—只有SequoiaDB数据库,不再需要额外购买昂贵的存储设备,节省企业的开发和运维成本。
图8:SequoiaDB双存储引擎
4)统一数据视图,实现冷、热数据物理分离
在大数据应用系统中,虽然存储了大量的历史数据,但是用户在使用数据的规律上,总会有一些数据是使用得比较频繁的(例如在银行中,近期三个月的数据位热数据),有一部分数据有价值,但是查询的频率不高,对于查询的性能也没有热数据那么严格(通常检索热数据,需要在50毫秒内返回结果,检索冷数据,允许在10秒内),这种数据我们就称为冷数据。
SequoiaDB专门为历史数据归档、检索提供一种全新的存储机制,使得热数据与冷数据实现物理分离(例如热数据使用较好的存储硬件SSD,冷数据存储在廉价的磁盘上),但是冷、热数据均统一在一个数据视图上,用户只要像操作一个普通的数据表那样,进行数据检索、分析。