大数据分析关键技术与服务创新

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

内容提纲
1 数据分析与大数据 2 云计算与大数据分析 3 关键技术与服务创新
云计算大数据分析平台
— 以区域性智能数据中心及高 速互联网为基础设施,
— 以互联网服务体系为架构, — 以大数据存储、处理、挖掘
和交互式可视化分析等关键 技术为支撑,
— 通过多样化移动智能终端及 移动互联网为用户提供数据 存储、管理及分析服务。
大数据分析关键技术与服务创新
内容提纲
1 数据分析与大数据 2 云计算与大数据分析 3 关键技术与服务创新
腾讯游戏与大数据分析
• 亿级在线用户、上百在线游戏
• 游戏平台系统记录每个用户在线玩游戏的详细数据,包括 游戏、时间、动作、结果等,数据超TB级
• 分析需求:
– 用户行分类与预测,用户行为客户群划分, – 用户挽留、用户奖励和级别提升
云计算的优点
•成本低 •易于普及 •可扩展能力高 •节能 •环保
云计算大数据处理的核心技术
MapReduce 编程模型
算法编程
•Map 和 Reduce 两 个基本操作 •大规模分布计算 •可扩展性
运行时系统
程序运行
•负载平衡 •任务调度 •容错
虚拟文件系统
数据划分
•GFS (Google) •HDFS (Hadoop)
掘算法库
云存储
支撑海量数据 存储与管理
云计算大数据分析平台
平台 110台服务器, 840 CPU核, 550TB 规模 存储容量
软件 环境
数据库:MySQL5.0 商用版 云存储:Hadoop、Casendral 数据挖掘软件:Alphaminer、R
制造业
最多可节省50%的产品研发、 组装成本 最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美元来进行衡量, 大数据将会给信息技术领域带来一个新的增长点。
大数据产业链
传统应用领域
金融
通信
零售
制造
互联网
电子商务
现代物流
智慧城市
新型应用领域
智能电网
大数据带来的挑战
内容提纲
1 数据分析与大数据 2 云计算与大数据分析 3 关键技术与服务创新
选取客户不同维度的数据进行客户 分群
日周月用电模式 用户行业背景 用户地理信息 用户电力设备信息 地区宏观经济数据
通过对客户分群,获取用户不同的 用电模式
工作日双班制,三班制,四班制 周末长短周轮休 夜间用电高峰 行业间用电模式比较 不同地区不同行业用电模式比较 节假日及用电模式趋势预测
挑战性科学问题
f1 f2 f3 f4 f5 … 1 2
n-4 n-3 n-2 n-1
n
成千上万个属性
超高维问题
1. 混合数据类型 2. 缺省值/噪声 3. 相关性问题 4. Unbalance 5. Subspace property 6. Uninformativeness
百万以上甚 至超亿个记 录
区域智能数据中心 区域智能数据中心
支持多种终端访问
支撑海量数据处理、 挖掘与分析运算
云计算引擎
Open API 提供数据挖掘平台 与第三方应用系统
的扩展接口
关键技术
数据处理分析流程图形化 设计数据处理分析流程 自动执行资源调度及优化
工作流引擎
大数据分析平台
提供海量复杂数据 处理、分析与挖掘
高可扩展算法 高性能海量数据挖
MapReduce编程模型
用户编程
程序写成Map和Reduce两步运算 1. Map统计单个文本词频 2. Reduce综合所有文本的词频
文件 文件 文件 文件 文件
文件划分
节点
主节点
(Map)
节点
节点
Map 运算
ຫໍສະໝຸດ Baidu
(Reduce)
节点 节点
输出 输出
Reduce 运算 结果输出
MapReduce编程特点
Clinical Record
数据融合 Ac(cfesusstiooDniv)erse H数ete据rog集en成eous
(iDnisttreibgurteadtDiaotna
) 挑战
Expression Arrays
(various tissues)
Personal genomics
Analysis lab notes
挑战性科学问题
病人健康 1. Patient Inform ation
医疗数据
没有有效的数据集 成就不能进行有效 的综合数据分析
Hospital events ....admission, surgery, recovery, discharge
X-rays, MRI, mamograms, etc
客户分群
三 班 型
两 班 型
稳定型 其 他 类 型
三班制用电行为聚类
高强度加班模式
低强度加班模式
什么是大数据
对数据的使用者来讲,如果数据集超出了使用者所拥有的 信息处理和分析的能力,就给使用者带来了大数据问题
大数据的3V特征
Volume 大数据的特点并不只是 数据规模大 数据规模大
Velocity 数据变化数据快
QQ游戏是腾讯旗下自研的 休闲游戏社区平台,官方数 据显示,QQ游戏平台拥有 百款以上的游戏品类,2亿 量级活跃用户,最高同时在 线人数超过800万。
智能电网大数据
• 东莞工业的电力用户 达两万多家
• 每十五分钟采集电压 、电流、功率等数据
• 每月平均数据量达 85GB
用客户电行为模式大数据分析
K-means 算法 Pipeline 模式
MR MR MR
MR
MR MR MR
MR
MR MR MR
MR
?
?
输入
数据
Map 过程
将对象分配给与其 最相似的聚类
?
?
Reduce过程
重新计算 聚类中心点
?
是 否 收 敛 ?
输出 聚类结

MapReduce大数据随机森林算法
Layer
宽度优先、大规模分层建树策略
Value
价值
Variety 数据属性复杂
大数据的价值 (Value)
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门管理
每年2500亿欧元 每年生产率增长约0.7%
全球个人定位数据
1000亿+的服务供应商收入 为终端用户带来高达7000亿 美的价值
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
大数据集的挑战 (Big Data Matrix)
云计算与大数据
• 云计算是一种新的大规模分布式计算模式
– 通过网络和资源 虚拟技术,实现计算及存储资源集 中管理,面向用户提供服务
• 云计算可以解决目前计算机使用的诸多问题, 是计算技术发展的一个新的里程碑
传统计算机的问题
•使用成本高 •资源分散 •资源不足 •资源浪费 •高能耗 •环境污染
相关文档
最新文档