大数据分析市场行业分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键技术——分结构化数据分析
• 系统支持按照关键词(一个或多个)将录音电话切片分 类
– 比如,要查找关于“电费”相关的记录中主要的投诉内容
• 通过索引和分布式处理机制,可以快速的生成新的统计 数据(类似于在数据仓库中做切片操作):
关键技术——结构化/分结构化混合分析
• 客服内容由两部分:关于电话基本信息的关系数据,具体 的语音信息 • 关联分析将两者结合起来进行深度分析:
混合式数据分析工具
• 同时支持非结构化的文本分析和结构化的数据库分析 • 建立在统一的E3引擎之上,能够进行交互和联合分析 • 支持对海量数据的快速分析,发现其中隐藏的知识、行为 模式等 • 提供描述语言,支持用户进行自定义的数据分析
文本分析工具
结构化数据 分析工具
非机构化分析工具
• 分布式存储和处理模型
不支持 需要倒入Greenplum Database数据仓库
不支持 文件存储,无外部应用访 问接口
分析案例:95598客服服务
• 主要功能包括客户档案查询、电量电费查询、 业务办理进度查询,以及业务受理、故障报修、 咨询受理、投诉举报、消息订阅 • 主要业务流程
用户电话 客户电话记录
语音记录
客户电话记录
用户数据 产生新的数据
改进业务流程
关键技术——非结构化语音分析
客服信息
内容分割: 按照音色 音域
用户信息
记录了用户的 投诉内容和对 服务的满意度
语音语调分析,看是否 按照规定的态度服务
分析结果——用户满意度
• 用户拨打客服电话都是有一定的目的,目的达到与否则表 示了客服的成功率 • 通过对用户的语义、情绪分析,符合下列模型的,分析认 为是正确满足用户需求的
分析查询
E3引擎
更新Cube
事务处 理查询
元数据
键值存储系统 实时数据 DataCube
数据分片
分布式文件系统
分布式索引技术
• • 在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找 分布式索引技术 – 建立分布式二级索引 – 支持并发地在多节点上同时查询 – 可以和本地数据库索引连接 – 例如:分布式B树索引结构,
• 由客服人员手工录入,包括:
– – – – 电话起止时间 客户身份信息 原因(归类为:电费查询、投诉、保修等几大类) 简单内容概述(不完整,客户人员匆匆记录)
• 当前的处理方式——简单的统计信息:
– 平均电话时常 – 客户分布信息 – 每种电话的统计百分比
• 缺乏深度的分析
– 用户因为什么而投诉,这种投诉是否是普遍存在的 – 每个用户是否通过拨打955598电话完成了他的请求
pu1
pu2
pu4
pu5
云数据 存储服务
pu1 pu2 pu4 pu5
pu1 pu3 pu5 pu1
PU – processing unit (处理单元)
云 数据存储服务
E3与阿帕奇Hadoop的性能比较
• Grep任务:每个节点535M • Select任务:每个节点1G
Grep任务
Select任务
不满 愤怒 疑问 称赞 感谢
释疑
平静
分析结果——客服质量
• 客服质量定义为:单位时间内满足的用户数量 • 对某一特定客服人员:
服务效率 满意的用户数 总服务时间
服务质量统计
服务质量
满意的用户数 总用户数
分析结果——热点分析
• 通过整理分析用户通话内容得到用户投诉的主 要目的 • 使用数据挖掘和数据可视化来统计关键问题 • 支持海量数据的快速处理 • 分析客户通话内容,按照词频构造标签云:
用户 管理 与监 控平 台
管理 员运 维平 台
虚拟 化
硬件
虚拟机、网络、云硬盘
IDC、服务器、存储、网络
epiC Group
– – – – – – 电话耗时10分钟以下和10分钟以上的用户满意度统计 分布在不同区域的用户满意度统计 收入在不同范围的用户关心的主要问题 客服填写的简要信息是否和用户录音记录一致 客户电话主要集中来电时间分布,以及和满意度的关联度 客服的效率和时间的关系
其他案例
• 网易私有云平台
– 推进企业内数据共享、全局信息挖掘与商业智能
– 无需定义表结构 – 数据直接存储与分布式文件系统中 – 自动错误处理和恢复
• 基本的数据访问接口
– put/get: 随机的文档数据读取 – scan: 批量数据扫描 – tokenize: 将文档组织成单词组以提供给上层分析处理
• 分析数据接口
– Extract operator [ɛ]: 提供基于正则表达式和字典的匹配操作 – Select operator [σ]: 提供基于用户选择条件的过滤操作 – Join operator [⋈]: 将来自多个数据源的文档/文字流进行合并 – Consolidate operator [Ω]: 去重操作
•
提供类似于SQL的文本处理分析语言: EPQL
非结构化处理流程
• 每一个EPQL将对特定集合的文档进行处理 • 每个文档将通过4个操作的处理,然后中间结果传给连接 操作和去重操作 • 结果将是符合用户要求的文档或统计内容,比如:
– 查找所有包含关键词:[Cloud] [Computing],在2012年产生的网页
语音记录
• 用户和客服之间的对话会被完 整记录为语音文件 • 语音文件包含了丰富的信息:
– – – – 用户打电话的主要原因 客服的服务态度 客服的服务能力 用户的满意度
• 因为缺少相关工具,当前采用 人员采样收听的策略,效率低, 覆盖率低
针对客服信息的大数据分析
关联
翻译
混合数 据分析 导入 云展数据仓库
大数据机
大数据分析市场行业分布
• 2012年大数据分析需求行业分布
– 政府、互联网、电信、金融的大数据市场规模较大,四个行业将 占据一半市场份额。
• 结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。
云展大数据机
大数据分析应用
收集网站日志, 交易数据,音频 视频数据,即时 信息…… 数据导入 确立分析目标 编写分析程序 为分析目标生成 报表,趋势图等
可视化工具
• 将分析结果以报表的形式展现给用户
– 支持线图、饼图、柱装图、趋势图等常用的图表格式 – 标签云以及数据关联挖掘
云展大数据机与其他大数据分析平台的比较
云展大数据机 是否一体机 硬件架构 大数据收集 是 标准 框架式设计 Greenplum HD 是 标准 手工 IBM BigInsights 否 N.A. 手工
– 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容 的文档的关联度
文本分析示例:用户反馈信息分析
• 在电子商务网站,如京东等,用户购买结束后,会对产品 购买过程及产品本身进行评价,通过分析用户的反馈信息, 可以发现其中的问题
关键问题:发货速度慢, 需要更换物流公司
Biblioteka Baidu
结构化数据分析
• 结构化数据分析通过维护并定期更新data cube的方式来 提供高效的分析查询结果 • 根据时间戳来实现同时支持实时事务处理和分析查询
大数据采集
大数据存储
大数据处理
大数据可视化
可扩展数据采集 框架
元数据管理 分布式大数据存 储
大数据并行处理 引擎
图表生成工具
大数据分析平台
云展大数据机—软件架构
可视化工具 大数据知识库
文本分析工具
结构化数据 分析工具 E3编程接口 MapReduce接口
SQL接口
E3大数据并行处理框架
元数据管理 数据收集框架 基于分布式文件 系统的数据存储
数据 共享 扩展 功能 应用 平滑 迁移 配额 与计 费 应用 架构 数据 管理
IP城市库、乐库、书库
图像处理、文本分析(分词、标签、 分类)、数据挖掘(聚类、关联规 则)、语音处理、GIS
应用 托管
Web App Engine for Java
负载均衡(LVS、反向代理)、DNS、消息队列
DDB、对象存储、文件中心、关系数据存储、全文检索、并行 分析、Timeline、NewSQL、缓存服务
云展大数据机—硬件架构
• 标准机架式设计
– – – – – 每个机架可容纳40台节点机 节点机通过千兆以太网连接 节点机采用标准PC服务器 可扩展到20个机架 原型机:awan(2个机架,76台节点机)
云展关键技术——E3引擎
• • E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶 段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。 E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理 单元之间传递中间运算结果,最终完成整个数据处理过程。
元数据管理
大数据存储 大数据处理引擎 大数据处理接口
支持
HDFS E3 E3,MapReduce, SQL 支持 Elephant DB,支持 检索、外部应用访问 接口
不支持
HDFS Hadoop MapReduce,HiveQL
不支持
HDFS Hadoop MapReduce,Jaql
大数据可视化 如何处理分析结果