大数据分析市场行业分布

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音记录
• 用户和客服之间的对话会被完 整记录为语音文件
• 语音文件包含了丰富的信息:
– 用户打电话的主要原因 – 客服的服务态度 – 客服的服务能力 – 用户的满意度
• 因为缺少相关工具,当前采用 人员采样收听的策略,效率低, 覆盖率低
针对客服信息的大数据分析
关联
翻译
需要倒入Greenplum Database数据仓库
不支持
文件存储,无外部应用访 问接口
分析案例:95598客服服务
• 主要功能包括客户档案查询、电量电费查询、 业务办理进度查询,以及业务受理、故障报修、 咨询受理、投诉举报、消息订阅
• 主要业务流程
用户电话
客户电话记录
语音记录
客户电话记录
• 由客服人员手工录入,包括:
数据导入
确立分析目标 编写分析程序
为分析目标生成 报表,趋势图等
大数据存储
大数据处理
大数据可视化
可扩展数据采集 框架
元数据管理 分布式大数据存

大数据并行处理 引擎
大数据分析平台
图表生成工具
云展大数据机—软件架构
可视化工具
大数据知识库
文本分析工具
结构化数据 分析工具
SQL接口
E3编程接口
MapReduce接口
• 分析数据接口
– Extract operator [ɛ]: 提供基于正则表达式和字典的匹配操作 – Select operator [σ]: 提供基于用户选择条件的过滤操作 – Join operator [⋈]: 将来自多个数据源的文档/文字流进行合并 – Consolidate operator [Ω]: 去重操作 • 提供类似于SQL的文本处理分析语言: EPQL
的文档的关联度
文本分析示例:用户反馈信息分析
• 在电子商务网站,如京东等,用户购买结束后,会对产品 购买过程及产品本身进行评价,通过分析用户的反馈信息, 可以发现其中的问题
关键问题:发货速度慢, 需要更换物流公司
Βιβλιοθήκη Baidu构化数据分析
• 结构化数据分析通过维护并定期更新data cube的方式来 提供高效的分析查询结果
– 电话起止时间 – 客户身份信息 – 原因(归类为:电费查询、投诉、保修等几大类) – 简单内容概述(不完整,客户人员匆匆记录)
• 当前的处理方式——简单的统计信息:
– 平均电话时常 – 客户分布信息 – 每种电话的统计百分比
• 缺乏深度的分析
– 用户因为什么而投诉,这种投诉是否是普遍存在的 – 每个用户是否通过拨打955598电话完成了他的请求
模式等 • 提供描述语言,支持用户进行自定义的数据分析
文本分析工具
结构化数据 分析工具
非机构化分析工具
• 分布式存储和处理模型
– 无需定义表结构 – 数据直接存储与分布式文件系统中 – 自动错误处理和恢复
• 基本的数据访问接口
– put/get: 随机的文档数据读取 – scan: 批量数据扫描 – tokenize: 将文档组织成单词组以提供给上层分析处理
• 根据时间戳来实现同时支持实时事务处理和分析查询
分析查询
事务处 理查询
实时数据
E3引擎
更新Cube
键值存储系统 DataCube
分布式文件系统
元数据
数据分片
分布式索引技术
• 在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找 • 分布式索引技术
– 建立分布式二级索引 – 支持并发地在多节点上同时查询 – 可以和本地数据库索引连接 – 例如:分布式B树索引结构,
非结构化处理流程
• 每一个EPQL将对特定集合的文档进行处理 • 每个文档将通过4个操作的处理,然后中间结果传给连接
操作和去重操作 • 结果将是符合用户要求的文档或统计内容,比如:
– 查找所有包含关键词:[Cloud] [Computing],在2012年产生的网页 – 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容
大数据机
大数据分析市场行业分布
• 2012年大数据分析需求行业分布
– 政府、互联网、电信、金融的大数据市场规模较大,四个行业将 占据一半市场份额。
• 结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。
云展大数据机
收集网站日志, 交易数据,音频 视频数据,即时
信息……
大数据采集
大数据分析应用
• E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶 段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。
• E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理 单元之间传递中间运算结果,最终完成整个数据处理过程。
云数据 存储服务 云 数据存储服务
pu1
可视化工具
• 将分析结果以报表的形式展现给用户
– 支持线图、饼图、柱装图、趋势图等常用的图表格式 – 标签云以及数据关联挖掘
云展大数据机与其他大数据分析平台的比较
是否一体机 硬件架构 大数据收集 元数据管理 大数据存储 大数据处理引擎 大数据处理接口
云展大数据机 是
Greenplum HD 是
标准
pu2
pu4
pu5
pu1
pu2
pu4
pu5
pu1 pu3 pu5
pu1
PU – processing unit (处理单元)
E3与阿帕奇Hadoop的性能比较
• Grep任务:每个节点535M • Select任务:每个节点1G
Grep任务
Select任务
混合式数据分析工具
• 同时支持非结构化的文本分析和结构化的数据库分析 • 建立在统一的E3引擎之上,能够进行交互和联合分析 • 支持对海量数据的快速分析,发现其中隐藏的知识、行为
标准
框架式设计
手工
支持
不支持
HDFS
HDFS
E3
E3,MapReduce, SQL
Hadoop MapReduce,HiveQL
IBM BigInsights 否 N.A. 手工
不支持 HDFS Hadoop MapReduce,Jaql
大数据可视化
支持
不支持
如何处理分析结果
Elephant DB,支持 检索、外部应用访问 接口
E3大数据并行处理框架
数据收集框架
元数据管理
基于分布式文件 系统的数据存储
云展大数据机—硬件架构
• 标准机架式设计
– 每个机架可容纳40台节点机 – 节点机通过千兆以太网连接 – 节点机采用标准PC服务器 – 可扩展到20个机架 – 原型机:awan(2个机架,76台节点机)
云展关键技术——E3引擎
相关文档
最新文档