大数据时代挑战与解决之道PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013中国计算机网络安全年会
大数据时代: 挑战与解决 之道
1
第一部分
整体概述
THE FIRST PART OF THE OVERALL OVERVIEW, PLEASE SUMMARIZE THE CONTENT
2
大数据时代面临的问题与挑战 大数据解决之道 云数据中心 解决之道
2
大数据
◆ 大数据泛指数据集的大小超过了通常的数据库,数据管理软件所能 获取、存储、管理和分析的范围 ◆ 大与小相对处理能力和需求而言,并无统一量 化标准
22
大数据技术面临的问题与挑战
◆ 数据处理 - 原位分析
◇ 改变数据先存储、再处理的模式,在内存中处理更多的 数据,极大地减少I/O的开销,实现数据使用与磁盘读取 比例 的最大化。
23
大数据技术面临的问题与挑战
◆ 数据处理 – 异构混合加速
◇ 适用于大数据处理的硬件体系结构优化: 目前大数据的 主要优化方向都在软件上,而 硬件层面的优化实际上可 以对数据处理性能 起到相当关键的作用,需要在硬件体 系结构 方面进行深入研究,包括:大数据处理技术与 异 构加速计算(GPU等)技术的结合、专用
21
大数据技术面临的问题与挑战
◆ 数据处理 – 普适计算框架
◇ 常用的MapReduce只是针对互联网文本搜索提出的一 种大数据处理技术,在离线数据挖掘方面具有较好的优 势;而 对联机事务处理(OLDP)、数据密集型科学计 算(如地震处 理),包括联机数据分析(OLAP)都不是 最优的选择。在这 些领域,仍然需要对相应的并行处理 技术进行研究,包括分布 式关系型数据库、适用于数据 密集型计算的MPI等
医院每天产生
10TB彩超图

Facebook每月新增
10亿张照片
百度每天处理
10亿次访问请求
淘宝存储
1mm³大脑突触网络图像
8.8亿件商品信息
超过1PB
11
大数据技术趋势分析
◆ 多维度分析
道路情况
气象
热点活动
交通事故 12
大数据技术趋势分析
◆ 分析能力嵌入业务应用系统
13
大数据技术趋势分析
◆ 实时数据获取与分析
体量Volume 多样性Variety 速度Velocity 价值密度Value
4
传统数据处理面临的挑战
性能与扩展性的矛 盾 10000
8000
6000
4000
2000 0
传统分布… 新型大数…
100 300 500 700 900
控制数据存储与数据处理的性价 比
多种数据类型的融 合
结个构人数化据数据
物质世界数据
半结构化/ 非结构化数据
社会数据
如何满足大并发、快速响 应
5
海量数据的问题与挑战
软件处理能力
• 数据模型和处理 • 编程模式 • 数据质量
资源管理
• 平台资源管理 • 数据资源化及共享 • 数据服务
数据可信能力
• 安全监控 • 高可靠性 • 保密与隐私
6
大数据技术应用领域wenku.baidu.com
◆ 基本原理 异构多源信息网络(相比于同构)能够 更完整 的对现实世界进行建模,减少信 息损失,从而 发现更多知识。
◆ 互联网应用领域
◇ Web 2.0、SNS、即时通信、垂直搜索等
◆ 高性能计算领域
◇ 气候模式处理;地震/石油勘探数据处理等
◆ 科学研究
◇ 第四范式
10
大数据技术趋势分析
◆ 数据采集量越来越大
运营商每天新增
50亿条通话记

中等城市每年保存 大型连锁超市每天产生
300PB交通视频
6000万条消费记录
14
大数据技术趋势分析
◆ 统一融合架构
企业信息总线
交易服务
企业信息服务
网络服务
决策分析服务
OLTP
[MPP]RDB
DFS
统一存储层
ETL
ETL
MR/ETL
15
统一接口层
MR/Storm
Hadoop集 群
ETL
数据仓库 数据集市
RS/TM
大数据技术趋势分析
◆ 可视化技术
16
大数据技术面临的问题与挑战
18
大数据技术面临的问题与挑战
◆ 数据收集/清洗/过滤 – 获取置信区间
◇ 大数据产生的来源广泛,通常具备低成本、低价值、高 噪声、产生速度快等特点,如果毫无选择地全部储存和 处理, 势必对系统造成极大的压力 ◇ 相应地,数据的价值总是不断被发现,今天无用的数据 ,并不代表明天同样没有价值,因此不能简单地过滤掉 “无 用”数据
7
大数据技术应用领域
◆ 公共安全领域(棱镜计划)
◇ 舆情监控:对海量信息自动抓取、自动分类/聚类、主题 检测、专题聚焦,实现网络舆情监测和新闻专题追踪等 信息 需求,形成简报、报告、图表等分析结果 ◇ 安全态势感知:融合各类安全设施的海量数据信息,通 过特征提取、安全分析、态势感知和预警,实现对网络 当前 状况的评估,和对未来变化趋势的预测。
◆ 大数据处理各环节都存在需要解决的问题

数据模型
◇ 数据收集/清洗/过滤
◇ 数据存储
◇ 数据处理
数据 数据过滤
数据 处理
原始数据
信息 归纳演绎
知识
◇ 数据展现
数据收集
推断
决策
17
大数据技术面临的问题与挑战
◆ 数据模型 – 完善理论基础
◇ 计算机算法都是处理有结构、有语义的数据,按照某种 数据模型来处理数据,而非结构化数据很难按照统一的 模型 进行分析处理。 ◇ 原有的数据库范式从理论上很好地支撑了关系型数据库 的发展;但面对复杂类型的大数据处理,缺乏完备的理 论基 础支撑。
8
大数据技术应用领域
◆ 金融、电信、电子商务、财税等传统领域
◇ 在线交易类应用,如银行业务、在线支付、在线交易、 网络发票等;数据挖掘类应用,如信用评估、趋势预测 、客户行为分析等。
◆ 民生服务领域
◇ 交通流量/路况监控,路径规划等;人口状况统计分析; 疾病趋势分析;环境监控等
9
大数据技术应用领域
19
大数据技术面临的问题与挑战
◆ 数据存储 – 融合异构数据
◇ 海量异构数据的高效存储和组织问题

高效存储EB级结构化、半结构化、非结构化数据

采用多级存储、存储虚拟化等技术,处理热数据、冷数据、半 热
数据的存储和访问
20
大数据技术面临的问题与挑战
◆ 数据存储 – "突破"CAP
◇ 认识到C、A、P均有程度之分:ACID与BASE之争 ◇ 放弃强一致性来避免高延迟,保证可用性(最终一致性 和因果一致性,全局协商一致加高可用持久存储) ◇ C与A之间的取舍可以非常细小的粒度反复发生 ◇ 显式主动管理分区:探知分区、根据一致性约束限制某 些操作、恢复和错误补偿
24
相关文档
最新文档