大数据技术概论_第一节课_
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据是下一个 Intel-inside
大数据的定义
• 维基(Wiki)百科的定义
– Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools – 规模庞大,结构复杂,难以通过现有IT技术与工具处理的数 据集
微处理器芯片集成度与主频、功耗、性能的演变趋势图
单核处理器性能提升接近极限
• VLSI集成度不可能无限制提高
– 芯片集成度已进入极小尺度级别,集成度不可 能无限制提高
单核处理器性能提升接近极限
• 处理器的指令级并行度提升接近极限
– 高级流水线等各种复杂的微体系结构技术都已 得到研究应用,难以进一步挖掘更多的指令级 并行性
耦 合 度
可 扩 展 性
能 耗
• 集群(Cluster)
– 网络连接的一组商品计算机构成的计算系统
• 网格(Grid)
– 用网络连接远距离分布的一组异构计算机构成的计算 系统
松 散
高
高
并行计算技术的分类
• 数据密集型并行计算 (Data-Intensive Parallel Computing)
– 数据量极大、但计算相对简单的并行处理 – 如:大规模Web 信息搜索
数据访问速度严重受限
• 磁盘容量增长远快过存储访问带宽和延迟
– 80年代中期数十MB到今天1-2TB,增长10万倍,而
带宽仅提高50倍,延迟仅提高2倍 !
• 100TB数据顺序读一遍需要多少时间?
– 设硬盘读取访问速率128MB/秒
– 1TB/128MB 约2.17小时 – 100TB/128MB = 217小时 = 9天! – 即使用百万元高速磁盘阵列(800MB/s),仍需1.5天!
大数据处理面临的困难
海量数据 分析 计算 存储
在过去的7年里,与计算能力的增 长相比,数据规模以更高的指数级 速度增长:在线数据每年增长95%, 而根据摩尔定律,计算能力每年的 增长率为40%
HP实验室
提高计算机性能的方案
• 提高集成度:
– 摩尔定律:芯片集成度每18-24个月翻一倍,计 算性能提高一倍。
多核、多处理器促进并行计算
• 并行计算(Parallel computing)是指在具有 并行处理能力的计算节点上,将一个计算 任务分解成多个并行子任务,并分配给不 同的处理器,各个处理器之间相互协同, 并行地执行子任务,从而达到加速计算速 度,或提升计算规模的目的。
并行计算技术的分类
• 共享内存(Shared Memory)
– 所有处理器通过总线共享内存
总 线 共享存储器
M M M ……
• 分布共享存储体系结构
– 各个处理器有本地存储器 – 同时再共享一个全局的存储器
……
• 分布式内存(Distributed Memory)
– 各个处理器使用本地独立的存储器
共享存储器
…… M M M
并行计算技术的分类
• 多核/众核并行计算系统MC(Multicore/Manycore)
• 不同类型数据的发展态势
– 企业数据中,目前已有超过80%的数据是以非 结构化的形式存在的。 – 互联网领域,非结构化数据已占到整个数据量 比例的75%以上。 – 非结构化ቤተ መጻሕፍቲ ባይዱ据年增长速度约为63%,远超过结 构化数据增长速度32%。
12
大数据的特征-Velocity
• 数据量增长越来越快
• 高速网络、传感网、空中卫星、无线移动通讯网络(5G)
– 或Chip-level multiprocessing, CMP
紧 密
低
低
•
对称多处理系统SMP(Symmetric Multiprocessing)
– 多个相同类型处理器通过总线连接并共享存储器
• 大规模并行处理MPP(Massive Parallel Processing)
– 专用内联网连接一组处理器形成的一个计算系统
大数据的特征-Volume
• IDC报告预测:未来十年,全球数据量继续 迅速增长,年均增长率超过40%
– 2009年0.8ZB – 2020年35ZB
科学实验数据规模巨大,增长迅猛
欧洲CERN对撞机每年产生的 数据量超过15 PB 华大基因测序目前每天产生 数据约15TB,一年超过5PB
一
E-VLBI观测数据已经从TB 量 级进入到了PB 量级
大数据的特征-Value
• Twitter:日本海啸、地震信息提前传播,协助 紧急事件的应急处理(2011); • 微博: 7.21北京暴雨900万条(受灾分布)、 钓鱼岛4000万条(民众情绪) • Google:2008年在甲型H1N1流感爆发几周前, 提前预测冬季流感的传播 • 阿里巴巴:提前8-9个月预测08年金融危机 • 淘宝网:根据你的消费与浏览商品,判断你可 能购买什么。
提高计算机性能的方案
• 提高处理器字长:
– Intel:4bits、8bits、16bits、32bits、64bits
• 提升处理器频率:(1990s-2004) • 改进处理器微架构
– 指令级并行:RISC结构、五级流水线 – ……
• 2004后处理器 的性能不再像 人们预期那样 提高
单核处理 器性能提 升接近极 限!
提纲
• • • • 什么是大数据 大数据带来的技术挑战 Google的案例 课程设置
大数据时代下的系统需求
可视化 数据挖掘(监督、非监督) 平 台 管 理 数据计算(实时、离线) 数据存储(Oracle、Mysql) 数据导入(提取、转换、加载) 数据源(企业数据、互联网)
• 存储和管理 – 存储PB级的处理 – 存储多种多样的数据 • 处理 – 处理PB级的多种数据 – 低延迟读写速度 – 服务 – 高可扩展性 – 提供7*24小时不间断服务 • 成本 – 较低的软硬件成本 – 较低的人力成本
book-final.pdf)
前期准备
• 理论
–计算机原理 –TCP/IP网络原理 –数据结构
•
实践
–Java编程 –Linux系统操作
提纲
• • • • 什么是大数据 大数据带来的技术挑战 Google的案例 课程设置
大数据是目前产业界和学术界的热点
科学就是数据, 数据就是科学。
数据就是石油
手机依赖趋势上升
数据的生产-消费模式在改变
Old Model: 少数大型组织产生数据,其他人消费数据
New Model: 所有人产生数据,所有人消费数据
18
大数据的特征-Value
• 2001, Banko and Brill 发表 了一篇自然语言领域的经 典研究论文,探讨训练数 据集大小对分类精度的影 响,发现数据越大,精度 越高;更有趣的发现是, 他们发现当数据不断增长 时,不同算法的分类精度 趋向于相同,使得小数据 集时不同算法在精度上的 差别基本消失!
功耗墙
大数据处理面临的困难
海量数据 分析 计算 存储
数据存储和数据输入/输出的速度 是制约计算机体系发展的重要瓶颈
处理器速度和存储器速度差异越来越大
• 处理器性能每2年翻一倍,而存储器性能每6 年翻一倍 • 为了匹配两者间速度差异,处理器需要做 越来越大的Cache
CPU/内存的性能增长对比图
计算机硬件性能提升比较
• 计算密集型并行计算 (Computation-Intensive Parallel Computing)
2
2005年前 人们预计 的主频提 升路线图
2005年后 Intel转入 多核技术
们大大降 低了主频 提升预期
Cite from Edward L. Bosworth, The Power Wall, 2010
单核处理器性能提升接近极限
• 功耗和散热大幅增加超过芯片承受能力
– 晶体管密度不断提高,单位面积功耗和散热大 幅增加 – 主频提高导致功耗和散热急剧增加
• 需要处理的速度和响应越来越快
– 公共安全的需求:人脸识别、应急事件检测 – 商业利益的驱动: E-Promotions、 Healthcare monitoring:
全球39%的人是网民
用户生产内容数量激增
用户生产内容数量激增
• 用户制作实时游戏视频/在线播放 – Twitch月活跃用户达1亿,同比增长122%
大数据的特征:4V
• Volume:规模大
• 从PB级到ZB级 • 1 ZB ~ 106* PB
• Variety:多样化
• 结构化、非结构化 • 文本、图像、视频等
• Velocity:变化快
• 批处理/离线数据、流/实时/在线数据等
• Value:价值大/密度低
• 噪音和无用信息很多
大数据的特征-Volume
• 参考资料
– Mining of Massive Datasets,Anand Rajaraman • Hadoop In Action, Chuck Lam, Manning • Data-Intensive Text Processing with MapReduce, Jimmy Lin and Chris Dyer (www.umiacs.umd.edu/~jimmylin/MapReduce-
(Banko and Brill, ACL 2001) (Brants et al., EMNLP 2007)
大数据的特征-Value
• 2007, Brants et al. 描述了 一个基于2万亿个单词训 练数据集的语言模型, 比较了当时最先进的 Kneser-Ney smoothing 算 法与他们称之为“stupid backoff “ (愚蠢退避)的 简单算法,最后发现,后者 在小数据集时效果不佳, 但在大数据集时,该算 法最终居然产生了更好 的语言模型!
• IDC的定义
– Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture,discovery, and/or analysis. – 新一代的技术和架构,通过高速的数据获取、发现和分析技 术,以经济的方式从各种超大规模的数据中提取价值
美国EarthScope每年产生数 据超过68TB 一
大数据的特征-Variety
• 结构化数据(Structured) VS. 非结构化数据 (Unstructured)
– 结构化数据是可以用二维表结构来逻辑表达实 现,并可存储在数据库中的数据 – 非结构化数据则是指那些无法通过预先定义的 数据模型表述或无法存入关系型数据库表中的 数据
•全球IP网一分钟传送639TB •发出2亿邮件 •苹果的应用下载4.7万次 •Amazon销售8.3美元 •Pandora新增6万多首歌曲 •Flickr有2千万次访问照片 •Flickr新贴3000张照片 •Twitter新增320个账户 •Twitter上载10万条新微博 •Facebook新增27.7万用户 •Facebook发生6百万次访问 •Google发生2百万次搜索查询 •Youtube上载30小时的视频 •Youtube发生130万次观看
复杂指令集 精简指令集 函数指令集
CISC Intel X86
数十种芯片 10W+ 1芯片对 千万应用
RISC ARM
数百种芯片 1W+ 1芯片对 万应用
FISC
1个体系结构,数千种芯片 0.1W+ 1芯片对 千应用
单核处理器性能提升接近极限
• 2005年前,人们预期可以一直提升处理器主频 • 但2004年5月Intel处理器Tejas and Jayhawk(4GHz)因 无法解决散热问题最终放弃,标志着升频技术时 代的终结 功耗P=CV f,C:时钟跳变时门电路电容,V:电压,f:主频 2007年人
大数据技术概论
中国科学院大学工程学院 2015年秋季学期
课程简介
• 课程目的:随着数据的爆炸性增长,大数据管理 与分析已经成为业界十分关心的话题。本课程首 先阐述大数据的概念、特点及面临挑战,开源 Hadoop技术体系的原理、架构和实现,然后介绍 大数据解决方案以及实践
参考资料
• 课程用书:
• 《Hadoop权威指南》,Tom White