信息与智能科学导论 第8章 大数据导论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
《信息与智能科学导论》
大数据的来源
(3)计算机生成 这类数据是计算机通过模拟现实世界生成的数据。例如, 通过计算机动态模拟城市交通、生成噪声、流量等信息。
17
大数据的采集方法
《信息与智能科学导论》
根据数据源特征的不同,数据的采集方法多种多样 。
(1)传感器
18
大数据的采集方法
《信息与智能科学导论》
15
《信息与智能科学导论》
大数据的来源
(2)人类的记录 这类数据是由人录入计算机形成的,主要包括关系型数据 库中的数据和数据仓库中的数据,如企业资源计划(ERP )系统、客户关系管理(CRM)系统等产生的数据。 另一类典型的数据来源就是人类用户在使用信息系统过程 中记录的行为,包括微博、微信、搜索引擎、电子商务平 台等。
缩写Fra Baidu bibliotek号
B KB MB GB TB PB EB ZB YB BB NB DB CB
4
换算关系
1 Byte(B)= 8 bit 1 KB = 1024B
1 MB = 1024 KB 1 GB = 1024 MB 1 TB= 1024 GB 1 PB= 1024 TB 1 EB = 1024 PB 1 ZB= 1024 EB 1YB = 1024 ZB 1 BB= 1024 YB 1 NB =1024 BB 1 DB=1024 NB 1 CB =1024DB
3
《信息与智能科学导论》
数据的爆发式增长使数据的存储单位的规模越来越大,用 来表示数据存储容量的计算机存储单位见表8-1。
存储单位名称
Byte(字节) Kilo Byte(千字节) Mega Byte(兆字节) Giga Byte(吉字节) Tera Byte(太字节) Peta Byte(拍字节) Exa Byte (艾字节) Zetta Byte(泽字节) Yotta Byte(尧字节) Bronto Byte(千秭字节) Nona Byte(暂未定名) Dogga Byte(暂未定名) Corydon Byte(暂未定名)
《信息与智能科学导论》
第8章 . 大数据导论
1
主要内容
• 8.1大数据概论 • 8.2大数据的处理流程 • 8.3大数据的应用领域
《信息与智能科学导论》
2
8.1 大数据概论
《信息与智能科学导论》
数据从Web 2.0 阶段的用户自主原创生成,转变为由感知 系统自动生成数据的阶段,数据已经成为企业最有价值的 资产。
• 数据的3种类型 (1)结构化数据 结构化数据具有较强的结构模式,有固定格式和有限长度 关系型数据库中的数据表就是结构化数据
学生编号 2018100201 2017100202 2017100203 2017100204
姓名 赵军 刘石磊 曹坚毅 曾小惠
性别 男 男 男 女
8
年龄 18 19 18 18
(2)系统日志
系统日志由系统运行产生,以特殊的文件格式记录系统的 活动,包含系统的行为、状态以及用户与系统的交互等。
19
《信息与智能科学导论》
Hadoop采用Chukwa收集和分析集群自身的日志信息
① Agent运行在每个客户端上,负责采集原始数据,并发送给 Collector。 ② Collector接收Agents发送的数据,并定时写入集群的存储空间中。 ③ MapReduce jobs定时启动,负责对集群中的数据分类、排序、去重和合 并,实现分析和归档数据。
9
《信息与智能科学导论》
• 数据的3种类型 (3)非结构化数据 非结构化数据是指不遵循统一的数据模式或者模型,不定 长、无固定格式的数据 系统日志、文档、图像、音频、视频等数据都属于非结构 化数据
10
大数据产生的背景
《信息与智能科学导论》
大数据摩尔定律:数据每隔12个月增长 50%
随着物联网、移动互联网、感应网络等新数据源的出现, 同时也导致非结构化、半结构化数据呈爆发式增长。预计 到2020年,全球将拥有44ZB的数据量,比2010年增长了 近50倍
• 数据产生的3个阶段 (1)应用程序生成数据阶段
数据的产生方式是被动的
《信息与智能科学导论》
5
• 数据产生的3个阶段 (2)用户原创产生数据阶段
数据由用户自主原创生成
《信息与智能科学导论》
6
• 数据产生的3个阶段 (3)数据感知阶段
数据由感知系统自动生成
《信息与智能科学导论》
7
《信息与智能科学导论》
13
《信息与智能科学导论》
1.数据采集与预处理
如果要从数据中获取价值,首先需要从现实世界中采集信 息,并对信息进行计量和记录。 大数据的来源多种多样,而不同来源的数据的采集方式也 不相同。
14
大数据的来源
《信息与智能科学导论》
(1)对现实世界的测量
这类数据是通过感知设备获得的,例如,医疗影像数据, 二维码或条形码扫描数据,摄像头监控数据,用于监测天 气、水、智能电网的传感数据以及应用服务器日志等。
11
大数据的概念和特征
《信息与智能科学导论》
目前通常认为大数据具有“4V”特征 数据规模庞大(Volume) 数据种类繁多(Variety) 数据变化频繁(Velocity) 数据价值密度低(Value)
12
《信息与智能科学导论》
8.2 大数据的处理流程
大数据的处理流程可以理解为:在合适工具的辅助下,对 异构的数据源进行采集和集成,然后按照一定的标准进行 存储,并利用适当的数据分析技术对存储的数据进行分析 ,从中提取有益的价值并利用恰当方式将结果展现给终端 用户。
是否团员 是 否 是 是
籍贯 湖南长沙 湖北武汉
天津 北京
《信息与智能科学导论》
• 数据的3种类型 (2)半结构化数据 半结构化数据是一种弱化的结构化数据形式 这类数据中的结构特征相对容易获取和发现。这类数据中 的结构特征相对容易获取和发现,通常采用XML、JSON 等标记语言来表示,HTML也可以认为是一种半结构化 的数据。
20
大数据的采集方法
《信息与智能科学导论》
(3)网络爬虫
网络爬虫是指为搜索引擎下载并存储网页的程序,爬虫顺 序地访问初始队列中的一组网页链接,并为所有网页链接 分配一个优先级。爬虫从队列中获得具有一定优先级的 URL,下载该网页,随后解析网页中包含的URLs,并将 这些新URLs添加到队列中。这个过程一直重复,直到爬 虫程序停止为止。
相关文档
最新文档