ETHINK大数据解决方案讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
锁管理
上网详单 用户特征 分析汇总
Node1(d ate)
node2
mapredurce
大数据装载、汇总、查询任务实现、执行与管理
HDFS(互联网大数据,数据文件)
MASTER(NAMELODE)
HBASE
存放汇总后的数据
node3
node4
node5
node6
node7
node8
Wap上网详单
用户资料
YARN 资源管理框架
Erasure Code-纠错编码
HDFS2-分布式文件系统
多维统计预测,准 实时分析以及对客 户进行聚类、分类 等数据挖掘应用.
使用搜索引擎时, 搜索同样的关键词 时却让不同的用户 看到不同的广告; 在电子商务网站购 物时,每次浏览同 样的商品时,让用 户得到不同的商品 推荐。
Stream Driver 流驱动器
Stream QL 统计
Stream ML 机器学习
ETHINK流引擎
传感器日志
/2013101/… /20130102/…
Hadoop HDFS
方案四:离线分析与挖掘
C/C++ Java
支持SQL统计,在数 据量达到100TB规模 时,是数据仓库的唯
一解决方案
目录
1 ETHINK产品 2 解决方案 3 行业应用 4 产业化目标
国家金审工程需求
跨行业、跨区域的审计大数据数字化综合分析中心,指挥中心
大数据环境下知识学习引擎、推理引擎,数据挖掘与机器学习 Hadoop大数据集群,大数据分布式内存计算
税收 审计
海关审计 财政审计 金融审计
银行
证券
经济责任 审计
行为分析的研究,在国内外杂志、会议发表了多篇高水平 论文,获得视频相关发明专利2项,申请7项。已获得项目 有:
[1] 国家自然科学基金项目(61075073) [2] 高等学校博士学科点专项科研基金资助课题 (20093402110014) [3] 国家自然科学基金项目(61005091) [4] 与38所合作项目:基于视频的行人车辆检测和跟踪 其中与38所合作完成的“基于视频的行人车辆检测和跟踪” 项目,已经服务于“智慧黄山”工程。
保险审计 企业审计 社保审计 固定资产 农业审计 外资运用 专项审计 审计
跨行业、跨区域数据中心
税收、海关、财政、金融、银行、证券、经济责任、保险、企业、 社保、固定资产、农业、外资运用、专项审计13大行业数据源
数字化审计分析平台
审计数据中心平台
电信行业应用
数据存储处理云化
− 使用GP对海量结构数据进行计算 − 使用hadoop对非结构化数据整合、
应用
关系 数据库
已有应用 实时入库 服务器
HTTP/REST
简单 查询 扫描
警告
事件
记录
影像
交易记录、实时事件、电话清单等 7×24不间断数据
搜索、统计、分析、图推理
接口 接口 接口
Ethink 查询分析引擎
HBase
数据来源多、高并发以及 生成速度快,并且要在数 据流动的过程中进行分析 和计算。
方案三:实时流处理
业务 网管
业务 监控
智能 调度
业务 配置
分析 评估
ETL 层
数据 源
DSG
BSS
OSS
ETL_STEP
MSS
业务平 台
DataX
网站访 问
日志
Nutch
论坛
..
电信行业应用
自下而上的数据支持与应用,分为:接口层、HADOOP分布式文件层、应用层
客户特征体系(GP)
六大可视功能
hive
查询结果
zookpeer
EDA基础平台(oracle)
应用 集市
精 确 营
销
渠 道
全 资 源
…
业务 流 指标 量
3 G
宽 带
…
基础 收 指标 入
业 务 量
竞 争
…
宽表 层
销 售 品
客 户
竞 争
…
ED 参 M与
人
产 品
事 件
…
消息路由控制
GP计算平台
… 客户特征 基站位置
结算 详单
服务访问
运行控制
hadoop计算平台
… 微博 论坛 手机上网 家庭网关
并行算法库
数据挖掘
SQL接口
JDBC/ODBC
Байду номын сангаасETHINK
内存分析库
(Index,filters)
Checkpoint
cache
内存分析引擎适合提供 高速在线分析服务,如 按数据维度进行统计、 聚合,根据历史数据进 行拟合和预测以及计算 数据之间的相关性和模 式等
关系表
Hadoop HDFS
方案二:实时在线处理
• 为构建报表、仪表板、图文报告、可视化分 析、钻取分析、数据挖掘等应用提供了整套 基于html5的设计开发环境
应用栈
云BI平台访问
云BI平台访问
目录
1 ETHINK产品 2 解决方案 3 行业应用 4 产业化目标
方案一:交互式SQL统计与数据挖掘
交互界面
sqoop 关系表
关系表
ETHINK
计算、查询
数据管理标准化
− 数据管理标准化 − 模型标准化 − 运营管理标准化
应用智能化
− 自助取数 − 智能分析
数据服务标准化
− 提供ESB总线
门户层
数据应用层
每日关注
自助取数平台
智能分析平台
客户洞察平台
。。。
数据服务层 服务管理
服务接入
元数 理管 理
需求 管理
维指 度标 管管 理理
模程 型序 管管 理理
大数据平台及解决方案
目录
1 ETHINK产品 2 解决方案 3 行业应用 4 产业化目标
大数据领域分类树
ETHINK的目标是在分析和加速计算领域做到国内 第1 或 第2的位置
ETHINK大数据平台
• 快速整合和管理各类大数据,对信息进行高 级分析。
• 可视化所有数据,对数据进行统计、挖掘、 关联分析。
大数据接口
终端注册数据
信息库
。。。
交通部门大数据
地方交通部门,设备7×24小时不间
断捕获图像和视频数据,每月数据 量达TB级. 1.集中管理交通数据。 2.优化海量数据利用 3.改善交通. 4.提升交通案件侦破能力
5.增强交通警察对机动车辆的监管能 力.
实时视频监控大数据应用
中国科学技术大学仿真与智能控制实验室,本实验室在视 频处理具有多年的研究经验,已经构建了5版视频监控平 台,且开创了基于人类视觉智能的动态目标捕捉、跟踪和
流式计算系统是针对其处理的数据是从 前端或者其他数据源持续不断地输入的, 应用的处理逻辑由这些源源不断的数据 流驱动,持续对输入的数据进行计算。
在线模型训练
时间窗口统计
Stream Applications
转换、清洗
传感器网络 传感器日志
传感器日志
消息队列
Map/Reduce
异常阀值对比报警
实时查询 实时查询
ROB
Sqoop ETL工具
安安装装、、T部r部a署Ent署s、hwi、a管nrk管p理M理M、aan、n监aag监g控eer控r和和告告警警
JDBC
CLI
ODBC
HiveQL-SQL翻译器
Web
R 统计语言
并行化R
MAPREDUCE2
Text
Image
Binary File
Logs
Flume 日志采集
上网详单 用户特征 分析汇总
Node1(d ate)
node2
mapredurce
大数据装载、汇总、查询任务实现、执行与管理
HDFS(互联网大数据,数据文件)
MASTER(NAMELODE)
HBASE
存放汇总后的数据
node3
node4
node5
node6
node7
node8
Wap上网详单
用户资料
YARN 资源管理框架
Erasure Code-纠错编码
HDFS2-分布式文件系统
多维统计预测,准 实时分析以及对客 户进行聚类、分类 等数据挖掘应用.
使用搜索引擎时, 搜索同样的关键词 时却让不同的用户 看到不同的广告; 在电子商务网站购 物时,每次浏览同 样的商品时,让用 户得到不同的商品 推荐。
Stream Driver 流驱动器
Stream QL 统计
Stream ML 机器学习
ETHINK流引擎
传感器日志
/2013101/… /20130102/…
Hadoop HDFS
方案四:离线分析与挖掘
C/C++ Java
支持SQL统计,在数 据量达到100TB规模 时,是数据仓库的唯
一解决方案
目录
1 ETHINK产品 2 解决方案 3 行业应用 4 产业化目标
国家金审工程需求
跨行业、跨区域的审计大数据数字化综合分析中心,指挥中心
大数据环境下知识学习引擎、推理引擎,数据挖掘与机器学习 Hadoop大数据集群,大数据分布式内存计算
税收 审计
海关审计 财政审计 金融审计
银行
证券
经济责任 审计
行为分析的研究,在国内外杂志、会议发表了多篇高水平 论文,获得视频相关发明专利2项,申请7项。已获得项目 有:
[1] 国家自然科学基金项目(61075073) [2] 高等学校博士学科点专项科研基金资助课题 (20093402110014) [3] 国家自然科学基金项目(61005091) [4] 与38所合作项目:基于视频的行人车辆检测和跟踪 其中与38所合作完成的“基于视频的行人车辆检测和跟踪” 项目,已经服务于“智慧黄山”工程。
保险审计 企业审计 社保审计 固定资产 农业审计 外资运用 专项审计 审计
跨行业、跨区域数据中心
税收、海关、财政、金融、银行、证券、经济责任、保险、企业、 社保、固定资产、农业、外资运用、专项审计13大行业数据源
数字化审计分析平台
审计数据中心平台
电信行业应用
数据存储处理云化
− 使用GP对海量结构数据进行计算 − 使用hadoop对非结构化数据整合、
应用
关系 数据库
已有应用 实时入库 服务器
HTTP/REST
简单 查询 扫描
警告
事件
记录
影像
交易记录、实时事件、电话清单等 7×24不间断数据
搜索、统计、分析、图推理
接口 接口 接口
Ethink 查询分析引擎
HBase
数据来源多、高并发以及 生成速度快,并且要在数 据流动的过程中进行分析 和计算。
方案三:实时流处理
业务 网管
业务 监控
智能 调度
业务 配置
分析 评估
ETL 层
数据 源
DSG
BSS
OSS
ETL_STEP
MSS
业务平 台
DataX
网站访 问
日志
Nutch
论坛
..
电信行业应用
自下而上的数据支持与应用,分为:接口层、HADOOP分布式文件层、应用层
客户特征体系(GP)
六大可视功能
hive
查询结果
zookpeer
EDA基础平台(oracle)
应用 集市
精 确 营
销
渠 道
全 资 源
…
业务 流 指标 量
3 G
宽 带
…
基础 收 指标 入
业 务 量
竞 争
…
宽表 层
销 售 品
客 户
竞 争
…
ED 参 M与
人
产 品
事 件
…
消息路由控制
GP计算平台
… 客户特征 基站位置
结算 详单
服务访问
运行控制
hadoop计算平台
… 微博 论坛 手机上网 家庭网关
并行算法库
数据挖掘
SQL接口
JDBC/ODBC
Байду номын сангаасETHINK
内存分析库
(Index,filters)
Checkpoint
cache
内存分析引擎适合提供 高速在线分析服务,如 按数据维度进行统计、 聚合,根据历史数据进 行拟合和预测以及计算 数据之间的相关性和模 式等
关系表
Hadoop HDFS
方案二:实时在线处理
• 为构建报表、仪表板、图文报告、可视化分 析、钻取分析、数据挖掘等应用提供了整套 基于html5的设计开发环境
应用栈
云BI平台访问
云BI平台访问
目录
1 ETHINK产品 2 解决方案 3 行业应用 4 产业化目标
方案一:交互式SQL统计与数据挖掘
交互界面
sqoop 关系表
关系表
ETHINK
计算、查询
数据管理标准化
− 数据管理标准化 − 模型标准化 − 运营管理标准化
应用智能化
− 自助取数 − 智能分析
数据服务标准化
− 提供ESB总线
门户层
数据应用层
每日关注
自助取数平台
智能分析平台
客户洞察平台
。。。
数据服务层 服务管理
服务接入
元数 理管 理
需求 管理
维指 度标 管管 理理
模程 型序 管管 理理
大数据平台及解决方案
目录
1 ETHINK产品 2 解决方案 3 行业应用 4 产业化目标
大数据领域分类树
ETHINK的目标是在分析和加速计算领域做到国内 第1 或 第2的位置
ETHINK大数据平台
• 快速整合和管理各类大数据,对信息进行高 级分析。
• 可视化所有数据,对数据进行统计、挖掘、 关联分析。
大数据接口
终端注册数据
信息库
。。。
交通部门大数据
地方交通部门,设备7×24小时不间
断捕获图像和视频数据,每月数据 量达TB级. 1.集中管理交通数据。 2.优化海量数据利用 3.改善交通. 4.提升交通案件侦破能力
5.增强交通警察对机动车辆的监管能 力.
实时视频监控大数据应用
中国科学技术大学仿真与智能控制实验室,本实验室在视 频处理具有多年的研究经验,已经构建了5版视频监控平 台,且开创了基于人类视觉智能的动态目标捕捉、跟踪和
流式计算系统是针对其处理的数据是从 前端或者其他数据源持续不断地输入的, 应用的处理逻辑由这些源源不断的数据 流驱动,持续对输入的数据进行计算。
在线模型训练
时间窗口统计
Stream Applications
转换、清洗
传感器网络 传感器日志
传感器日志
消息队列
Map/Reduce
异常阀值对比报警
实时查询 实时查询
ROB
Sqoop ETL工具
安安装装、、T部r部a署Ent署s、hwi、a管nrk管p理M理M、aan、n监aag监g控eer控r和和告告警警
JDBC
CLI
ODBC
HiveQL-SQL翻译器
Web
R 统计语言
并行化R
MAPREDUCE2
Text
Image
Binary File
Logs
Flume 日志采集