大数据技术基础第一章:大数据技术概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1.2 大数据技术的影响
• 1. 大数据技术在国外 • 2013年5月,麦肯锡全球研究所 (McKinsey Global Institute)发布了一份名为《颠覆性 技术:技术进步改变生活、商业和全球经济》的研究报告。 • 2014年5月,美国政府发布了2014年全球大数据白皮书的 研究报告《大数据:抓住机遇、守护价值》。 • 美国和欧洲一些发达国家政府都从国家科技战略层面提出 了一系列的大数据技术研究计划,以推动政府机构、重大 行业、学术界和工业界对大数据技术的研究和应用。
1.3 大数据的存储与计算模式
• 大数据时代的出现,简单地说是海量数据同完美计算能力 结合的结果,准确地说是移动互联网、物联网产生了海量 的数据,大数据计算技术完美地解决了海量数据的收集、 存储、计算、分析的问题
1.3.1 大数据的存储模式
• • • • • 1. 大数据存储问题与挑战 大数据存储系统面临的挑战主要来自以下3个方面。 (1) 存储规模大,通常达到 PB(1,000 TB)甚至 EB(1,000 PB)量级。 (2) 存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。 (3) 数据服务的种类和水平要求高,换言之,上层应用对存储系统的 性能、可靠性等指标有不同的要求,而数据的大规模和高复杂度放大 了达到这些指标的技术难度。
1.2 大数据的概念、特征及意义
1.2.1 什么是大数据
• 关于大数据,不同的机构或个人有不同的理解,难以有一个非 常定量的定义。大数据是一个宽泛的概念,见仁见智,有些人 可能强调数据的规模,即“大”字;有些人可能强调大数据的 作用,即大数据能帮助人们做什么;甚至有些人更强调新数范围内用常规软件工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具有更强的决 策力、洞察发现力和流程优化能力来适应海量、高增长率和多 样化的信息资产。
1.2.4 大数据的挑战
• • • • 1. 大数据对技术的挑战 2. 大数据对信息安全的挑战 3. 大数据对运营商的挑战 4. 大数据对企业经营与管理的挑战
1.2.5 研究大数据的意义
• • • • • 1. 大数据计算提高数据处理效率,增加人类认知盈余 2. 全局的大数据让人类了解事物背后的真相 3. 大数据有助于了解事物发展的客观规律,利于科学决策 4. 大数据提供了同事物的连接,客观了解人类行为 5. 大数据改变过去的经验思维,帮助人们建立 • • • 它具有以下五大特征: 1. 数据量大(Volume) 2. 类型繁多(Variety) 3. 价值密度低(Value) 4. 速度快时效高(Velocity) 5. 永远在线(Online)
1.2.3 大数据来自哪儿
• • • • • • • • 1. 搜索引擎服务 2. 电子商务 3. 社交网络 4. 音视频在线服务 5. 个人数据业务 6. 地理信息数据 7. 传统企业 8. 公共机构
1.3.1 大数据的存储模式
• • • • • • 2. 大数据存储的关键技术 大数据存储的关键技术有以下4个。 (1) 分布式文件系统 (2) 分布式数据库 (4) 实时流式大数据存储与处理技术 (3) 大数据索引和查询技术 (4) 实时流式大数据存储与处理技术
1.1.1 大数据技术的发展过程
• 1. 萌芽阶段 • 20世纪90年代至21世纪初,是大数据发展的萌芽期。在 此阶段,数据库技术已逐步成熟,数据挖掘理论也不断完 善,因此也被称为数据挖掘技术阶段。 • 2. 突破阶段 • 2003年至2006年是大数据发展的突破期。在此阶段,学 术界和企业界开始从多角度对数据处理系统、数据库架构 进行重新思考。
第1章 大数据技术概述
• • • • • • 主要内容: 1.1 大数据技术的发展背景 1.2 大数据的概念、特征及意义 1.3 大数据的存储与计算模式 1.4 大数据的典型应用 1.5 初识Hadoop大数据平台
1.1 大数据技术的发展背景
Cartner曲线2013年针对Big Data的预测情况
1.1.2 大数据技术的影响
• 2.大数据技术在我国 • 中央电视台分别于2013年4月做了两期大数据专题谈话节目 “谁在引爆大数据”、“谁在掘金大数据”。 • 2013年以后,国家自然科学基金、973计划、核高基、863等 重大研究计划都已经把大数据研究列为重大的研究课题。 • 2015年9月,国务院印发《促进大数据发展行动纲要》,系统 部署大数据发展工作。 • 2016年3月17日,国家“十三五”规划纲要发布。该纲要明确 指出:一是加快政府数据开放共享。全面推进重点领域大数据 高效采集、有效整合,深化政府数据和社会数据关联分析、融 合利用,提高宏观调控、市场监管、社会治理和公共服务精准性 和有效性。
1.1.3 大数据发展的重大事件
• 2005年Hadoop项目诞生。 • 2008年末发表了一份有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》。 • 2011年5月,全球知名咨询公司麦肯锡全球研究院(MGI) 发布了一份报告——《大数据:创新、竞争和生产力的下 一个新领域》,大数据开始备受关注,这也是专业机构第 一次全方面的介绍和展望大数据。 • 2014年5月,美国白宫发布了2014年全球大数据白皮书的 研究报告《大数据:抓住机遇、守护价值》。 • 2016年3月17日,国家“十三五”规划纲要发布。
1.1.1 大数据技术的发展过程
• 3. 成熟阶段 • 2006年至2009年,是大数据技术发展的成熟阶段。在此 期间,大数据技术研究的焦点是性能(Performance)、 云计算(Cloud Computing)、大规模数据集并行运算 算法(MapReduce)以及开源分布式系统基础架构 (Hadoop)等。 • 4. 应用阶段 • 2009年至现在,大数据技术架构和大数据技术生态系统 越来越完善,尤其是Hadoop大数据技术平台的成熟标志 着大数据技术的发展正式进入了落地应用阶段。学术界和 企业界开始从大数据技术的基础性研究纷纷转向大数据技 术的应用研究。