大数据处理平台构架设计说明书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据处理平台及可视化架构设计说明书

版本:1.0

变更记录

目录

1 1. 文档介绍 (3)

1.1文档目的 (3)

1.2文档范围 (3)

1.3读者对象 (3)

1.4参考文献 (3)

1.5术语与缩写解释 (3)

2系统概述 (4)

3设计约束 (5)

4设计策略 (6)

5系统总体结构 (7)

5.1大数据集成分析平台系统架构设计 (7)

5.2可视化平台系统架构设计 (11)

6其它 (14)

6.1数据库设计 (14)

6.2系统管理 (14)

6.3日志管理 (14)

1 1. 文档介绍

1.1 文档目的

设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。

设计数据可视化平台,应用于大数据的可视化和互动操作。

为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。

1.2 文档范围

大数据的处理,包括ETL、分析、可视化、使用。

1.3 读者对象

管理人员、开发人员

1.4 参考文献

1.5 术语与缩写解释

2 系统概述

大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。

设计数据可视化平台 ,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。

3 设计约束

1.系统必须遵循国家软件开发的标准。

2.系统用java开发,采用开源的中间件。

3.系统必须稳定可靠,性能高,满足每天千万次的访问。

4.保证数据的成功抽取、转换、分析,实现高可信和高可用。

4 设计策略

1. 系统高可用、高性能、易扩展,安全稳定,实用可靠,满足用户的需要。

2. 系统可以进行扩展,增加数据的种类和数量。

3. 系统可以复用别的软件和算法。

5 系统总体结构

5.1 大数据集成分析平台系统架构设计1.逻辑架构

2架构说明

系统分为9个层次:

1)数据源:CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网的网页。

2)数据获取层:接收数据源的数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决策提供依据。

3)数据导入层:通过sqoop把数据库的数据导入hbase,用flume、kafka 把网页导入hbase。

4)数据加工层:对导入的数据进行清洗、抽取、整合,并存入数据核心存储层。

5)数据核心存储层:采用hbase、关系数据库保存加工后的数据。

6)数据分析处理层:通过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。

7)数据服务存储层:存储分析结果,包括Elastic search分布式搜索,redis 分布式缓存。

8)应用层:包括报表引擎、规则引擎、风控搜索引擎、用户认证系统、统计分析接口等。

9)服务层:对内的应用服务和对外的应用服务,为用户提供系统功能。

系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高的结果,高速稳定地响应用户的请求,可对公司的宽系列产品提供高质量的支持。还可建立企业云,把大数据平台放到云上。

系统从CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融相关的网页,对这些结构化和非结构化的数据进行抽取、清洗、整合、转换,存入hbase 数据库。

统计分析程序采用一定的算法和模型通过spark、hadoop的yarn、hive、pig 等读取处理数据,结果保存在服务层数据库,为用户提供可信的数据,还可通过可视化以各种统计图展现出来,通过pc、手机可以看到结果。

系统提供可视化的操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应的图表。

3.系统的特点

1、高负载和海量数据处理能力

以云存储或本地存储为基石,以云计算或企业服务器为处理核心,建

立了海量的数据业务支撑的大数据平台。每天可以承受千万级PV的访

问压力,支撑亿级用户及P级各类数据存储如金融数据、网页、日志

文件、图片、文档、影音等。基于此大数据支撑平台,不仅可以处理

日以继夜增长的TB级数据增量,更能满足各类实时业务需求

2、业界领先的实时性

在实时处理领域实现秒级突破,可以对各项业务数据惊醒实时查看与

统计,方便客户快速做出决策和即时响应,适应当今快节奏发展趋势。

如传统监控对年、月、周、日的频次统计,可以实现24小时内的实时

监控,和管理当前实时变化的统计仪表盘数据,更能实现7*24的用户

实时行为监测及秒级分析。

3、全面运营监控指标体系

不仅拥有常见的接入站点的运营监控流量指标如UV、PV、IP、新旧访

客数,还建立了行为质量指标如用户的请求,统计分析的正确度,并

可在此基础之上加入客户行为分析、统计模型调优、算法调优、网站

访客背景分析、鼠标点击行为等高智能的分析功能,从而为业务发展

及运营策略提供了有力的数据支撑。

4、对用户来源和数据的深入挖掘与分析

通过该平台不仅可以看到接入网站用户的基本信息(跳出率、回访次数、回访频率、国家分析、省份分析、城市分析、网络位置、浏览器、移

动终端等),还可以了解到客户来源(如来源页面、网站、搜索引擎、

关键字等)。并且在此基础上可以了解到客户访问路径,对数据进行多

维钻取,进而对网站客户数据信息的采集、挖掘更加深入。对大数据

进行深入的分析,为提升网站流量、提供科学的推荐依据、实现高质

量的客户差异化服务给出有力的数据支撑。

5、对用户行为进行实时跟踪、立体分析及即时沟通和个性推荐服务

可以针对实时在线的个体用户进行WEB IM即时沟通,提供即时的一对

一服务。并可以结合业务需求,在实现客服人员与用户一对一的同时,

展现该用户的历史业务操作行为及个性化信息,如用户消费历史记录

统计、行为习惯及喜好等。

6、统一数据接入平台

相关文档
最新文档