大数据安全专题研究(PPT 38张)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Page
4
1 B = 一个字符或一粒沙子 1 KB = 一个句子或几撮沙子 1 MB = 一个20 页的幻灯片演示文稿、一本小书或一大汤 勺沙子 1 GB = 书架上9 米长的书或者整整一鞋盒子的沙子
1 TB = 300 小时的优质视频、美国国会图书馆存储容量的 十分之一或者一个操场沙箱
1 PB = 35 万张数字照片或者一片1.6 公里长的海滩
IT科技浪潮
Page 11
我们周围到处都是数字信息。(无线电波、电话 电路、计算机电缆) 三种主要的模拟/数字转换为数据增长提供了动力: 用胶片拍摄影像转换为数字拍摄影像、模拟语音 转换成为了数字语音、模拟电视转换成为数字电 视。 2007年是人类创造的信息量有史以来第一次在理 论上超过可用存储空间总量的一年。 数字信息的增长是因为网络应用的不断增长。
1 EB = 1999 年全世界生成的信息的一半或上海到香港之 间的海滩
1 ZB = 无法想象,或者几乎全世界所有的海滩之和。
Page 5
1、大数据的定义
大数据(big data),也称巨量资料,指的是 所涉及的资料量规模巨大到无法透过目前 主流软件工具在合理时间内达到撷取、管 理、处理、并整理成为帮助企业经营决策 更积极目的的资讯。
Page 7
2、大数据的特点(4v)
Volume(大量)、Velocity(高速)、Variety (多样)、Value(价值)。
Page
8
3、大数据的结构类型
Page
9
4、大数据的实例
一分钟我们能干些什么呢?!! 一分钟能产生多少数据呢?!!
电子邮件用户发送204,166,677(2亿) 条信息;
Page 20
单词计数
给一个巨大的文本,计算单词的个数?!
Page
21
单词计数
使用MapReduce求解该问题
定义Map和Reduce函数
Page
22
单词计数
使用MapReduce求解该问题
Step 1: 自动对文本进行分割,形成初始的 <key,value>对。
Page
23
单词计数
Page
6
最早将大数据用于IT环境的是知名咨询公 司麦肯锡。 麦肯锡称:“数据,已经渗透到当今每一 个行业和业务职能领域,成为重要的生产 因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪 潮的到来。” “大数据”在物理学、生物 学、环境生态学等领域以及军事、金融、 通讯等行业存在已有时日,却因为近年来 互联网和信息行业的发展而引起人们关注。
大数据安全专题研究
Page
1
主要内容
一、什么是大数据 二、大数据的相关技术 三、大数据的应用 四、大数据安全问题及保护技术 五、机遇与挑战
Page
2
一、什么是大数据
1、大数据的定义 2、大数据的特点 3、大数据结构类型 4、大数据实例 5、大数据发展史
Page
3
有多大?---数据度量
HDFS-分布式文件系统
Page
19
MapReduce
MapReduce 计算模型可以说是大数据处理的核
心算法。
MapReduce实现了Map和Reduce两个功能。
Map把一个函数应用于集合中的所有成员,然后返
回一个基于这个处理的结果集。Reduce对结果集进 行分类和归纳。 Map()和 Reduce() 两个函数可能会并行运行,即 使不是在同一的系统的同一时刻。
Step 4:通过Reduce操作生成最后结果。
Page
26
0
Page 27
NOSQL
特点:
不需要预定义模式(不需要预定义数据模式,预 定义表结构,数据每条记录都可能有不同的属性 和格式);
无共享(将数据划分后存储在各个本地ቤተ መጻሕፍቲ ባይዱ务器 上);
弹性可扩展(运行时可动态添加删除节点);
分区;异步复制。
0
Page 17
HDFS-分布式文件系统
采用典型的主从结构的架构设计,实现文件系统
元数据和应用数据分离存放。
名字节点:整个集群的主节点,管理元数据,文
件访问的控制。
数据节点:从节点,负责来自客户端的读写请 求,完成对文件内容的提取和保存。 文件分块,采用一次写多次读的文件访问模式。
Page
18
Google 收到超过2,000,000(200万) 个搜索查 询; Facebook 用户分享684,478(68万) 条内容; Twitter 用户发送超过100,000 (10万)条微博;
苹果公司收到大约47,000 (5万)个应用下载;
571 个新网站诞生。。。。
Page 10
5、大数据发展史
使用MapReduce求解该问题
Step 2:在分割之后的每一对<key,value>进行用
户定义的Map进行处理,再生成新的<key,value>
对。
Page
24
单词计数
使用MapReduce求解该问题
Step 3:对输出的结果集归拢、排序(系统自动完 成)。
Page
25
单词计数
使用MapReduce求解该问题
约30年前,大部分数据都是结构化的,如今,多 媒体技术的普及后,非结构化数据爆炸式增长。
Page 12
可视化是引起数字世界急剧膨胀的原因之一。由
于数码相机、数码监控摄像机和数字电视内容的
加速增多,及信息的大量复制趋势,使得数字世 界的容量和速度超过之前。 个人日常生活的“数字足迹”也大大刺激了数字 宇宙的快速增长。通过互联网、电子邮件、移动 电话、数码相机和在线信用卡交易等方式,每个 人的日常生活都在数字化。 大数据快速增长的部分原因归于智能设备的普及, 比如传感器和医疗设备,以及智能建筑。 非结构化信息的增长部分归功于宽带数据的增长。
Page 13
全球数字信息五年间增长了10倍
Page 14
大数据与云计算
Page
15
二、大数据的相关技术
1
2
3
4
大数据技术框架
Page 16
分布式文件系统
特点:
支持PB级的大数据集;
提供高可靠、高吞吐率的顺序数据访问;
存储与计算共享节点(存储节点会同时参与应用 程序的执行);
使用廉价的硬件(高可扩展性)。 典型的代表: GFS(Google)、HDFS(Hadoop)
Page
28
NOSQL产品分类
数据库名称 列存数据库 Hbase Azure Tables Cassandra Hypertable SimpleDB 文档数据库 MongoDB CounchDB 键值存储 Redis 开源 开源 开源 Hadoop Microsoft Apache 开源 Amazon 作者