大数据处理平台构架设计说明书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据处理平台及可视化架构设计说明书
版本:1.0
变更记录
目录
1 1. 文档介绍 (3)
1.1文档目的 (3)
1.2文档范围 (3)
1.3读者对象 (3)
1.4参考文献 (3)
1.5术语与缩写解释 (3)
2系统概述 (4)
3设计约束 (5)
4设计策略 (6)
5系统总体结构 (7)
5.1大数据集成分析平台系统架构设计 (7)
5.2可视化平台系统架构设计 (11)
6其它 (14)
6.1数据库设计 (14)
6.2系统管理 (14)
6.3日志管理 (14)
1 1. 文档介绍
1.1 文档目的
设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。

设计数据可视化平台,应用于大数据的可视化和互动操作。

为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。

1.2 文档范围
大数据的处理,包括ETL、分析、可视化、使用。

1.3 读者对象
管理人员、开发人员
1.4 参考文献
1.5 术语与缩写解释
2 系统概述
大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。

设计数据可视化平台 ,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。

3 设计约束
1.系统必须遵循国家软件开发的标准。

2.系统用java开发,采用开源的中间件。

3.系统必须稳定可靠,性能高,满足每天千万次的访问。

4.保证数据的成功抽取、转换、分析,实现高可信和高可用。

4 设计策略
1. 系统高可用、高性能、易扩展,安全稳定,实用可靠,满足用户的需要。

2. 系统可以进行扩展,增加数据的种类和数量。

3. 系统可以复用别的软件和算法。

5 系统总体结构
5.1 大数据集成分析平台系统架构设计1.逻辑架构
2架构说明
系统分为9个层次:
1)数据源:CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网的网页。

2)数据获取层:接收数据源的数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决策提供依据。

3)数据导入层:通过sqoop把数据库的数据导入hbase,用flume、kafka 把网页导入hbase。

4)数据加工层:对导入的数据进行清洗、抽取、整合,并存入数据核心存储层。

5)数据核心存储层:采用hbase、关系数据库保存加工后的数据。

6)数据分析处理层:通过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。

7)数据服务存储层:存储分析结果,包括Elastic search分布式搜索,redis 分布式缓存。

8)应用层:包括报表引擎、规则引擎、风控搜索引擎、用户认证系统、统计分析接口等。

9)服务层:对内的应用服务和对外的应用服务,为用户提供系统功能。

系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高的结果,高速稳定地响应用户的请求,可对公司的宽系列产品提供高质量的支持。

还可建立企业云,把大数据平台放到云上。

系统从CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融相关的网页,对这些结构化和非结构化的数据进行抽取、清洗、整合、转换,存入hbase 数据库。

统计分析程序采用一定的算法和模型通过spark、hadoop的yarn、hive、pig 等读取处理数据,结果保存在服务层数据库,为用户提供可信的数据,还可通过可视化以各种统计图展现出来,通过pc、手机可以看到结果。

系统提供可视化的操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应的图表。

3.系统的特点
1、高负载和海量数据处理能力
以云存储或本地存储为基石,以云计算或企业服务器为处理核心,建
立了海量的数据业务支撑的大数据平台。

每天可以承受千万级PV的访
问压力,支撑亿级用户及P级各类数据存储如金融数据、网页、日志
文件、图片、文档、影音等。

基于此大数据支撑平台,不仅可以处理
日以继夜增长的TB级数据增量,更能满足各类实时业务需求
2、业界领先的实时性
在实时处理领域实现秒级突破,可以对各项业务数据惊醒实时查看与
统计,方便客户快速做出决策和即时响应,适应当今快节奏发展趋势。

如传统监控对年、月、周、日的频次统计,可以实现24小时内的实时
监控,和管理当前实时变化的统计仪表盘数据,更能实现7*24的用户
实时行为监测及秒级分析。

3、全面运营监控指标体系
不仅拥有常见的接入站点的运营监控流量指标如UV、PV、IP、新旧访
客数,还建立了行为质量指标如用户的请求,统计分析的正确度,并
可在此基础之上加入客户行为分析、统计模型调优、算法调优、网站
访客背景分析、鼠标点击行为等高智能的分析功能,从而为业务发展
及运营策略提供了有力的数据支撑。

4、对用户来源和数据的深入挖掘与分析
通过该平台不仅可以看到接入网站用户的基本信息(跳出率、回访次数、回访频率、国家分析、省份分析、城市分析、网络位置、浏览器、移
动终端等),还可以了解到客户来源(如来源页面、网站、搜索引擎、
关键字等)。

并且在此基础上可以了解到客户访问路径,对数据进行多
维钻取,进而对网站客户数据信息的采集、挖掘更加深入。

对大数据
进行深入的分析,为提升网站流量、提供科学的推荐依据、实现高质
量的客户差异化服务给出有力的数据支撑。

5、对用户行为进行实时跟踪、立体分析及即时沟通和个性推荐服务
可以针对实时在线的个体用户进行WEB IM即时沟通,提供即时的一对
一服务。

并可以结合业务需求,在实现客服人员与用户一对一的同时,
展现该用户的历史业务操作行为及个性化信息,如用户消费历史记录
统计、行为习惯及喜好等。

6、统一数据接入平台
数据接入层采用sqoop、flume、分布式日志系统,实现推拉模式的各
种主流方式,并可按需升级为统一数据接入平台,不仅支持日志及页
面源码数据,还可以实现各类接口数据的无缝可视化接入,如关系型
和非关系型数据、各种主流非结构化数据等。

7、立体推荐及算法可替换平台
可以对数据进行多种分析算法和模型的处理,采用mahout、mlib的二元分类、线性回归、聚类、协同过滤、卷积神经网络(CNN)进行机器学习,采用RF(随机森林)、SVM(支持向量机)、半监督学习,通过训练达到权重等参数的最佳化,优化样本空间,并实现完全自动化调参和学习。

还可结合用户群体特征、个性行为历史及各种显式、隐式反馈进行人脑分析,实现个体用户和群体用户的立体化推荐和全过程的人工干预。

以算法平台为支撑,建立了可视化的算法训练和推荐结构的过滤植入,以增强客户个性化服务配置。

实现了各种算法的替换、组合和深度学习,如传统的UCF、ICF及业务创新的二度人脉剪枝算法等,以尽符合人脑思维习惯。

8、多种风格统计分析数据展现方式
对数据统计分析实现人性化的各种浏览器体验,传统风格如线性、柱
形、饼状分析图为企业对不同时段网站访问量、网站不同模块的访问
量、针对访客的不同分类进行更加直观的分析。

创新风格如热力图,
更形象、视觉化的体现网站页面不同位置客户点击密度,实时反映出
群体用户的兴趣特征,增强运营。

用户可以自定义条件,得到可视化
结果。

9、主流客户端的全端统计
该方案不仅可以统计WINDOWS/MAC/LINUX各类PC用户的主流浏览器客
户端(如IE、360、Chrome、Firefox等)的数据,还能针对移动互联网
用户统计主流移动客户端(如iphone,ipad,Android手机等)的各类数
据,并能根据RESTful接口开发各类所需的各端统计,如WAP手机端,
嵌入设备端等。

10、操作体验简洁方便
该方案秉承了人性化的设计理念。

在确保精准、高效的基础上简化了
操作过程,数据检索分析一键解决,极大的方便了客户使用。

各类所
需统计数据一目了然,并能针对主要数据如用户信息、用户行为等进
行一键化深度分析或即时服务操作。

11、可靠性强
以云平台作为支撑。

该平台有极强的可靠性,能够保证该软件更稳定、有效、安全的运行。

12、可扩展性强
以云平台作为支撑,可以实现各类平台组件按需横向扩展,如存储扩
容、计算增强等。

13、集成性强
丰富的接口具有极强的集成性。

可以实现与企业内部业务系统的高密
度集成,根据不同业务部门需求调取数据和数据分析结果。

14、可视化强
统计分析数据以图表,热图等方式体现,方便客户对比判断,在使用
时更舒适、方便,提供客户体验度。

各种操作过程如算法训练、人工
干预、数据ETL等均实现可视化,根本性解决了手工代码操作的问题。

15、提供定制服务
可以根据客户的特定需求进行更丰富的功能扩展,量身打造适宜的实
时运营分析及服务平台。

5.2 可视化平台系统架构设计
数据可视化平台,实现大数据的可视化和互动操作。

1.逻辑架构
2. 架构说明
系统分为3个层次:
1)应用系统:提供可视化的操作界面和显示结果,还包括决策支持、业务分析等。

2)大数据平台:包括分布式数据库hbase,对大数据的ETL和分析使用。

3).数据源:包括集成平台的所有数据。

可以使用百度的开源软件echarts实现各种统计图表的生成。

可视化效果如下:
6 其它
6.1 数据库设计
根据数据源进行科学的数据库设计,对habse的列族进行合理的划分,对核心库和存储库区别设计。

6.2 系统管理
对系统、用户、数据库等进行管理。

6.3 日志管理
系统用kafka保存日志。

相关文档
最新文档