(大数据)北邮大数据技术课程重点总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
23.分布式数据库概述:
四类典型的作用于大数据存储和管理的分布式数据库:并行数据库、
NoSQL 数据管理系统、NewSQL 数据管理系统、云数据管理系统。
并行数据库:
NoSQL 数据管理系统:
NewSQL 数据管理系统:
云数据管理系统: Nosql 简介:数据模型灵活、简洁;水平可扩展性强;系统吞吐量高; 关系数据库无法满足大数据表现:无法满足海量数据的管理需求、无法满足数据高并发的需 求、无法满足高可拓展性和高可用性的需求。 Nosql 与关系数据库的比较: NoSQL 的四大类型:键值数据库、 列族数据库、 文档数据库、 图形数据库 NoSQL 的理论基础(CAP 与 ACID、BASE) CAP: 一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。 ACID(关系数据库的事务具有的四个特性) BASE NoSQL 到 NewSQL: 大数据应用: 百度大数据引擎的构成:开放云、数据工厂、百度大脑 开放云: 数据工厂: 百度大脑: 阿里大数据应用:去 IOE 大数据在电信行业的应用: 24.分布式并行编程框架 MapReduce MapReduce 的体系结构:Client、JobTracker、TaskTracker、Task MapReduce 的工作流程: Split(分片): Map 端的 Shuffle 过程详解: Reduce 端的 shuffle 详解: MapReduce 小结:
(大数据Biblioteka Baidu北邮大数据技术 课程重点总结
5.数据化与数字化的区别
数据化:将现象转变为可制表分析的量化形式的过程; 数字化:将模拟数据转换成使用 0、1 表示的二进制码的过程
6.基于协同过滤的推荐机制
基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)——基于模型的推荐(SVM、 聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归) 余弦距离(又称余弦相似度):表示是否有相同的倾向 欧几里得距离(又称欧几里得相似度):表示绝对的距离 这种推荐方法的优缺点: 它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是 开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。 数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分; 冷启动问题,新物品和新用户依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用 户不能给予很好的推荐。
9.机器为什么能学习
学习过程被分解为两个问题: 能否确保 Eout(g)与 Ein(g)足够相似? 能否使 Ein(g)足够小? 规模较大的 N,有限的 dVC,较低的 Ein 条件下,学习是可能的。 切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。
10.VC 维:
11.噪声的种类:
大的跨平台兼容性;
局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意修
改文件
块:
hdfs 的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode 之间
的映射关系;hdfs 的数据节点存储文件内容、文件内容保存在磁盘、维护了 blockid
到 datanode 本地文件的映射关系。
25.Spark 特点:
Hadoop 的局限性: Spark 生态系统: RDD: RDD 的优势: RDD 之间依赖关系的两种类型: Stage 划分: Sprak 小结: 流数据:
流计算处理流程:数据实时采集(保证实时性、低延迟、可靠稳定)、数据实时计算、实时 查询服务(实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户)。 流处理系统与传统数据处理系统的区别: 开源流计算框架——Storm(免费、开源的分布式实时计算系统): Storm 的工作流程: 流计算小结: 图计算系统——Pregel 简介: BSP 模型: 图计算小结: Pregel 计算模型: Pregel 执行过程: Pregel 容错机制: HBase: BigTable: 特点: HBase: HBase 与传统关系数据库的对比: HBase 数据模型: HBased 中的数据坐标: HBase 功能组件: Region 的定位: HBased 系统架构: Region 服务器工作原理:
12.误差函数(损失函数)
13.给出数据计算误差
14.线性回归算法:简单并且有效的方法,典型公式
线性回归的误差函数:使得各点到目标线/平面的平均距离最小!
15.线性回归重点算法部分:
16.线性分类与线性回归的区别:
17.过拟合:
原因:模型复杂太高,噪声,数据量规模有限。 解决方案:使用简单的模型,数据清洗(整形),正则化,验证。
7.机器学习:构建复杂系统的可能方法/途径
机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数 据
8.机器学习的基础算法之 PLA 算法和 Pocket 算法(贪心 PLA)
感知器——线性二维分类器,都属于二分类算法 二者的区别:迭代过程有所不同,结束条件有所不同; 证明了线性可分的情况下是 PLA 和 Pocket 可以收敛。
21.分布式文件系统的结构:
分布式文件系统在物理结构上是由计算机集群中的多个节点构成,这些节点分为两类,一类 叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),另一类叫“从节点” (SlaveNode)或者也被称为“数据节点。
22.HDFS
主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强
18.正则化
19.分布式文件系统:
一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采用 C/S 模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户 端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。
20.计算机集群结构:
分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集 群。 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统 所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。
四类典型的作用于大数据存储和管理的分布式数据库:并行数据库、
NoSQL 数据管理系统、NewSQL 数据管理系统、云数据管理系统。
并行数据库:
NoSQL 数据管理系统:
NewSQL 数据管理系统:
云数据管理系统: Nosql 简介:数据模型灵活、简洁;水平可扩展性强;系统吞吐量高; 关系数据库无法满足大数据表现:无法满足海量数据的管理需求、无法满足数据高并发的需 求、无法满足高可拓展性和高可用性的需求。 Nosql 与关系数据库的比较: NoSQL 的四大类型:键值数据库、 列族数据库、 文档数据库、 图形数据库 NoSQL 的理论基础(CAP 与 ACID、BASE) CAP: 一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。 ACID(关系数据库的事务具有的四个特性) BASE NoSQL 到 NewSQL: 大数据应用: 百度大数据引擎的构成:开放云、数据工厂、百度大脑 开放云: 数据工厂: 百度大脑: 阿里大数据应用:去 IOE 大数据在电信行业的应用: 24.分布式并行编程框架 MapReduce MapReduce 的体系结构:Client、JobTracker、TaskTracker、Task MapReduce 的工作流程: Split(分片): Map 端的 Shuffle 过程详解: Reduce 端的 shuffle 详解: MapReduce 小结:
(大数据Biblioteka Baidu北邮大数据技术 课程重点总结
5.数据化与数字化的区别
数据化:将现象转变为可制表分析的量化形式的过程; 数字化:将模拟数据转换成使用 0、1 表示的二进制码的过程
6.基于协同过滤的推荐机制
基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)——基于模型的推荐(SVM、 聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归) 余弦距离(又称余弦相似度):表示是否有相同的倾向 欧几里得距离(又称欧几里得相似度):表示绝对的距离 这种推荐方法的优缺点: 它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是 开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。 数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分; 冷启动问题,新物品和新用户依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用 户不能给予很好的推荐。
9.机器为什么能学习
学习过程被分解为两个问题: 能否确保 Eout(g)与 Ein(g)足够相似? 能否使 Ein(g)足够小? 规模较大的 N,有限的 dVC,较低的 Ein 条件下,学习是可能的。 切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。
10.VC 维:
11.噪声的种类:
大的跨平台兼容性;
局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意修
改文件
块:
hdfs 的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode 之间
的映射关系;hdfs 的数据节点存储文件内容、文件内容保存在磁盘、维护了 blockid
到 datanode 本地文件的映射关系。
25.Spark 特点:
Hadoop 的局限性: Spark 生态系统: RDD: RDD 的优势: RDD 之间依赖关系的两种类型: Stage 划分: Sprak 小结: 流数据:
流计算处理流程:数据实时采集(保证实时性、低延迟、可靠稳定)、数据实时计算、实时 查询服务(实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户)。 流处理系统与传统数据处理系统的区别: 开源流计算框架——Storm(免费、开源的分布式实时计算系统): Storm 的工作流程: 流计算小结: 图计算系统——Pregel 简介: BSP 模型: 图计算小结: Pregel 计算模型: Pregel 执行过程: Pregel 容错机制: HBase: BigTable: 特点: HBase: HBase 与传统关系数据库的对比: HBase 数据模型: HBased 中的数据坐标: HBase 功能组件: Region 的定位: HBased 系统架构: Region 服务器工作原理:
12.误差函数(损失函数)
13.给出数据计算误差
14.线性回归算法:简单并且有效的方法,典型公式
线性回归的误差函数:使得各点到目标线/平面的平均距离最小!
15.线性回归重点算法部分:
16.线性分类与线性回归的区别:
17.过拟合:
原因:模型复杂太高,噪声,数据量规模有限。 解决方案:使用简单的模型,数据清洗(整形),正则化,验证。
7.机器学习:构建复杂系统的可能方法/途径
机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数 据
8.机器学习的基础算法之 PLA 算法和 Pocket 算法(贪心 PLA)
感知器——线性二维分类器,都属于二分类算法 二者的区别:迭代过程有所不同,结束条件有所不同; 证明了线性可分的情况下是 PLA 和 Pocket 可以收敛。
21.分布式文件系统的结构:
分布式文件系统在物理结构上是由计算机集群中的多个节点构成,这些节点分为两类,一类 叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),另一类叫“从节点” (SlaveNode)或者也被称为“数据节点。
22.HDFS
主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强
18.正则化
19.分布式文件系统:
一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采用 C/S 模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户 端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。
20.计算机集群结构:
分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集 群。 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统 所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。