大数据分析市场行业分布概述.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据采集
大数据存储
大数据处理
大数据可视化
可扩展数据采集 框架
元数据管理 分布式大数据存 储
大数据并行处理 引擎
图表生成工具
大数据分析平台
云展大数据机—软件架构
可视化工具 大数据知识库
文本分析工具
结构化数据 分析工具 E3编程接口 MapReduce接口
SQL接口
E3大数据并行处理框架
元数据管理 数据收集框架 基于分布式文件 系统的数据存储
分析查询
E3引擎
更新Cube
事务处 理查询
元数据
键值存储系统 实时数据 DataCube
数据分片
分布式文件系统
分布式索引技术
• • 在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找 分布式索引技术 – 建立分布式二级索引 – 支持并发地在多节点上同时查询 – 可以和本地数据库索引连接 – 例如:分布式B树索引结构,
混合式数据分析工具
• 同时支持非结构化的文本分析和结构化的数据库分析 • 建立在统一的E3引擎之上,能够进行交互和联合分析 • 支持对海量数据的快速分析,发现其中隐藏的知识、行为 模式等 • 提供描述语言,支持用户进行自定义的数据分析
文本分析工具
结构化数据 分析工具
非机构化分析工具
• 分布式存储和处理模型
可视化工具
• 将分析结果以报表的形式展现给用户
– 支持线图、饼图、柱装图、趋势图等常用的图表格式 – 标签云以及数据关联挖掘
云展大数据机与其他大数据分析平台的比较
云展大数据机 是否一体机 硬件架构 大数据收集 是 标准 框架式设计 Greenplum HD 是 标准 手工 IBM BigInsights 否 N.A. 手工
– 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容 的文档的关联度
文本分析示例:用户反馈信息分析
• 在电子商务网站,如京东等,用户购买结束后,会对产品 购买过程及产品本身进行评价,通过分析用户的反馈信息, 可以发现其中的问题
关键问题:发货速度慢, 需要更换物流公司
结构化数据分析
• 结构化数据分析通过维护并定期更新data cube的方式来 提供高效的分析查询结果 • 根据时间戳来实现同时支持实时事务处理和分析查询
pu1
pu2
pu4
pu5
云数据 存储服务
pu1 pu2 pu4 pu5
pu1 pu3 pu5 pu1
PU – processing unit (处理单元)
云 数据存储服务
E3与阿帕奇Hadoop的性能比较
• Grep任务:每个节点535M • Select任务:每个节点1G
Grep任务
Select任务
大数据机
大数Leabharlann Baidu分析市场行业分布
• 2012年大数据分析需求行业分布
– 政府、互联网、电信、金融的大数据市场规模较大,四个行业将 占据一半市场份额。
• 结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。
云展大数据机
大数据分析应用
收集网站日志, 交易数据,音频 视频数据,即时 信息…… 数据导入 确立分析目标 编写分析程序 为分析目标生成 报表,趋势图等
•
提供类似于SQL的文本处理分析语言: EPQL
非结构化处理流程
• 每一个EPQL将对特定集合的文档进行处理 • 每个文档将通过4个操作的处理,然后中间结果传给连接 操作和去重操作 • 结果将是符合用户要求的文档或统计内容,比如:
– 查找所有包含关键词:[Cloud] [Computing],在2012年产生的网页
不支持 需要倒入Greenplum Database数据仓库
不支持 文件存储,无外部应用访 问接口
分析案例:95598客服服务
• 主要功能包括客户档案查询、电量电费查询、 业务办理进度查询,以及业务受理、故障报修、 咨询受理、投诉举报、消息订阅 • 主要业务流程
用户电话 客户电话记录
语音记录
客户电话记录
元数据管理
大数据存储 大数据处理引擎 大数据处理接口
支持
HDFS E3 E3,MapReduce, SQL 支持 Elephant DB,支持 检索、外部应用访问 接口
不支持
HDFS Hadoop MapReduce,HiveQL
不支持
HDFS Hadoop MapReduce,Jaql
大数据可视化 如何处理分析结果
语音记录
• 用户和客服之间的对话会被完 整记录为语音文件 • 语音文件包含了丰富的信息:
– – – – 用户打电话的主要原因 客服的服务态度 客服的服务能力 用户的满意度
• 因为缺少相关工具,当前采用 人员采样收听的策略,效率低, 覆盖率低
• 由客服人员手工录入,包括:
– – – – 电话起止时间 客户身份信息 原因(归类为:电费查询、投诉、保修等几大类) 简单内容概述(不完整,客户人员匆匆记录)
• 当前的处理方式——简单的统计信息:
– 平均电话时常 – 客户分布信息 – 每种电话的统计百分比
• 缺乏深度的分析
– 用户因为什么而投诉,这种投诉是否是普遍存在的 – 每个用户是否通过拨打955598电话完成了他的请求
– 无需定义表结构 – 数据直接存储与分布式文件系统中 – 自动错误处理和恢复
• 基本的数据访问接口
– put/get: 随机的文档数据读取 – scan: 批量数据扫描 – tokenize: 将文档组织成单词组以提供给上层分析处理
• 分析数据接口
– Extract operator [ɛ]: 提供基于正则表达式和字典的匹配操作 – Select operator [σ]: 提供基于用户选择条件的过滤操作 – Join operator [⋈]: 将来自多个数据源的文档/文字流进行合并 – Consolidate operator [Ω]: 去重操作
云展大数据机—硬件架构
• 标准机架式设计
– – – – – 每个机架可容纳40台节点机 节点机通过千兆以太网连接 节点机采用标准PC服务器 可扩展到20个机架 原型机:awan(2个机架,76台节点机)
云展关键技术——E3引擎
• • E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶 段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。 E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理 单元之间传递中间运算结果,最终完成整个数据处理过程。