北邮大数据技术课程重点总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术
1.什么是数据挖掘,什么是机器学习:
什么是机器学习
关注的问题:计算机程序如何随着经验积累自动提高性能;
研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;
通过输入和输出,来训练一个模型。
2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层
3.传统的机器学习流程
预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。
手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。
4.大数据分析的主要思想方法
4.1三个思维上的转变
关注全集(不是随机样本而是全体数据):面临大规模数据时,依赖于采样分析;统计学习的目的——用尽可能少的数据来证实尽可能重大的发现;大数据是指不用随机分析这样的捷径,而是采用大部分或全体数据。
关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效
关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。
4.2数据创新的思维方式
可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。
数据混搭为创造新应用提供了重要支持。
数据坟墓:提供数据服务,其他人都比我聪明!
数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位置、输入的信息。
4.3大数据分析的要素
大数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。
5.数据化与数字化的区别
数据化:将现象转变为可制表分析的量化形式的过程;
数字化:将模拟数据转换成使用0、1表示的二进制码的过程
6.基于协同过滤的推荐机制
基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)——基于模型的推荐(SVM、聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归)
余弦距离(又称余弦相似度):表示是否有相同的倾向
欧几里得距离(又称欧几里得相似度):表示绝对的距离
这种推荐方法的优缺点:
它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。
数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分;冷启动问题,新物品和新用户
依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用户不能给予很好的推荐。
7.机器学习:构建复杂系统的可能方法/途径
机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数据
8.机器学习的基础算法之PLA算法和Pocket算法(贪心PLA)
感知器——线性二维分类器,都属于二分类算法
二者的区别:迭代过程有所不同,结束条件有所不同;
证明了线性可分的情况下是PLA和Pocket可以收敛。
9.机器为什么能学习
学习过程被分解为两个问题:
能否确保Eout(g) 与 Ein(g) 足够相似?
能否使 Ein(g) 足够小?
规模较大的N,有限的dVC,较低的Ein条件下,学习是可能的。
切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。
10.VC维:
11.噪声的种类:
12.误差函数(损失函数)
13.给出数据计算误差
14.线性回归算法:简单并且有效的方法,典型公式
线性回归的误差函数:使得各点到目标线/平面的平均距离最小!
15.线性回归重点算法部分:
16.线性分类与线性回归的区别:
17.过拟合:
原因:模型复杂太高,噪声,数据量规模有限。
解决方案:使用简单的模型,数据清洗(整形),正则化,验证。
18.正则化
19.分布式文件系统:
一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采用C/S模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。
20.计算机集群结构:
分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。
与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。
21.分布式文件系统的结构:
分布式文件系统在物理结构上是由计算机集群中的多个节点构成,这些节点分为两类,一类叫“主节点”(MasterNode)
或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点。
22.HDFS
主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强大的跨平台兼容性;
局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意修改文件
块:
hdfs的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode之间的映射关系;hdfs的数据节点存储文件内容、文件内容保存在磁盘、维护了block id到datanode 本地文件的映射关系。