大数据技术与应用(1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术与应用
第一章大数据概论
大数据的定义:大数据(Big Data)指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
IT产业的几个发展阶段如下:
1、硬件时代(80年代)
2、软件时代(90年代)
3、互联网时代(2000年代)
4、移动互联时代(2010年代)
5、物联网时代(现在)
大数据的主要来源:1、信息管理系统 2、网络信息系统3、物联网系统4、科学实验系统
数据生成的三种主要方式:被动式生成数据、主动式生成数据、感知式生成数据
(重点)传统数据与大数据特点比较
大数据的处理流程:数据的抽取与集成、大数据分析、数据可视化
大数据的数据格式:结构化信息、半结构化信息、非结构化信息(重点)大数据的特征:
大数据呈现出“4V+1O”的特征,具体如下:
数据量大(Volume)
多样化(Variety)
数据价值密度化(Value)
速度快,时效高(Velocity)
数据是在线的(On-Line)
大数据的应用领域:
1、军事侦察
2、网络日志
3、RFID传感器
4、社会网络、数据
5、互联网搜索索引
6、天文学
7、生物、基因组学
8、医疗记录
9、大规模的电子商务
10、摄影档案馆视频档案
(难点)大数据的四层堆栈式技术架构
(难点)大数据的整体技术:一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
(难点)大数据的关键技术:一般包括:1、大数据采集技术2、大数据预处理技术3、大数据存储及管理技术4、开发大数据安全技术5、大数据分析及挖掘技术6、大数据展现与应用技术
大数据分析的五种典型工具:
1.Hadoop
2.Spark
3.Storm
4.Apache Drill
5、HPCC
(重点)大数据未来发展趋势
一、数据资源化
二、数据科学和数据联盟的成立:
三、大数据隐私和安全问题:
四、开源软件成为推动大数据发展的动力
五、大数据在多方位改善我们的生活
第二章大数据采集及预处理
(重点)数据采集概念:
大数据的数据采集是在确定用户目标的基础上,针对该范围内所有结构化、半结构化和非结构化的数据的采集。
传统的数据采集与大数据的数据采集比较
(重点)数据采集的数据来源:大数据的三大主要来源为:1、商业数据2、互联网数据3、物联网数据
(重点)数据采集的技术方法:1、系统日志采集方法2.对非结构化数据的采集3.其他数据采集方法
(难点)大数据的预处理:大数据预处理的方法主要包括:数据清洗、数据集成、数据变换和数据规约。
大数据处理流程
数据采集及预处理的主要工具:1.Flume 2.Logstash 3.Kibana 4.Ceilometer Zipkin 6.Arachnid 7.Crawlzilla 8.集搜客GooSeeker
9.乐思网络信息采集系统 10. 火车采集器11. 狂人采集器
12.网络矿工(上机应用)
网络矿工数据采集软件是一款集互联网数据采集、清洗、存储、发布为一体的工具软件。
第三章大数据分析概论
(重点)大数据分析概念:
大数据分析是指对规模巨大的数据进行分析。通过多个学科技术的融合,实现数据的采集、管理和分析,从而发现新的知识和规律。
(重点)大数据分析流程
大数据分析的基本方法:1.预测性分析 2.可视化分析 3.大数据挖掘算法
4.语义引擎
5.数据质量和数据管理
大数据处理流程:提出问题、数据理解、数据采集、数据预处理、数据分析、分析结果的解析等。
(重点)大数据分析的主要技术:
一、深度学习:1、认识深度学习 2、深度学习应用
二、知识计算:1、认识知识计算 2、知识计算的应用
三、可视化
(重点)大数据分析系统:批量数据及处理系统、流式数据及处理系统、交互式数据及处提出
问题
数据
采集
数据
分析
可视
化
效果
评估
理系统、图数据及处理系统
大数据分析的应用:
互联网领域: 用户行为数据分析;用户消费数据分析;用户地理位置数据分析;互联网金融数据分析;用户社交等数据分析
医疗领域: 公共卫生;循证医学;基因组分析;设备远程监控;病人资料分析;疾病预测;临床操作
某互联网公司用户行为数据进行实时分析:
提出分析方案 简单测试 实际数据导入 数据源及数据特征分析 硬件设计方案 ETL 过程 系统配置 互联网用户分析行为 案例测试结果
第4
章 大数据可视化
大数据可视化与数据可视化
数据可视化:是关于数据的视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
(重点)大数据可视化:可以理解为数据量更加庞大,结构更加复杂的数据可视化。
大数据可视化实现的流程
大数据可视化与数据可视化的比较:
大数据可视化工具的特性:(1)实时性(2)简单操作(3)更丰富的展现(4)多种数据集成支持方式
(难点)Tableau 的特性主要包括以下6个方面:
(1)自助式BI (商业智能),IT 人员提供底层的架构,业务人员创建报表和仪表板。 (2)友好的数据可视化界面,操作简单,用户通过简单的拖拽发现数据背后所隐藏的业务问题。
(3)与各种数据源之间实现无缝连接。 (4)内置地图引擎。