大数据时代的机器学习总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

支持向量机(SVM):支持向量机算法从某种意义上来 说是逻辑回归算法的强化:通过给予逻辑回归算法 更严格的优化条件,支持向量机算法可以获得比逻 辑回归更好的分类界线。但是如果没有某类函数技 术,则支持向量机算法最多算是一种更好的线性分 类技术。
支持向量机(SVM):训练数据都是不含标签的,而算 法的目的则是通过训练,推测出这些数据的标签。 这类算法有一个统称,即无监督算法(前面有标签的 数据的算法则是有监督算法)。无监督算法中最典型 的代表就是聚类算法。以二维数据为例,某一个数 据包含两个特征。我希望通过聚类算法,给他们中 不同的种类打上标签,聚类算法就是计算种群中的 距离,根据距离的远近将数据划分为多个族群。 。
神经网络:神经网络的诞生起源于对大脑工作机理 的研究。早期生物界学者们使用神经网络来模拟大 脑。机器学习的学者们使用神经网络进行机器学习 的实验,发现在视觉与语音的识别上效果都相当好。 在BP算法(加速神经网络训练过程的数值算法)诞生以 后,神经网络的发展进入了一个热潮。BP算法的发 明人之一是前面介绍的机器学习大牛Geoffrey Hinton(图1中的中间者)。
语音识别=语音处理+机器学习。语音识别就是音频 处理技术与机器学习的结合。语音识别技术一般不 会单独使用,一般会结合自然语言处理的相关技术。 目前的相关应用有苹果的语音助手siri等。
自然语言处理=文本处理+机器学习。自然语言处理 技术主要是让机器理解人类的语言的一门领域。在 自然语言处理技术中,大量使用了编译原理相关的 技术,例如词法分析,语法分析等等,除此之外, 在理解这个层面,则使用了语义理解,机器学习等 技术。作为唯一由人类自身创造的符号,自然语言 处理一直是机器学习界不断研究的方向。
统计学习近似等于机器学习。统计学习是个与机器 学习高度重叠的学科。因为机器学习中的大多数方 法来自统计学,甚至可以认为,统计学的发展促进 机器学习的繁荣昌盛。例如著名的支持向量机算法, 就是源自统计学科。但是在某种程度上两者是有分 别的,这个分别在于:统计学习者重点关注的是统 计模型的发展与优化,偏数学,而机器学习者更关 注的是能够解决问题,偏实践,因此机器学习研究 者会重点研究学习算法在计算机上执行的效率与准 确性的提升。
有监督算法:线性回归,逻辑回归,神经网络, SVM
无监督算法:聚类算法,降维算法。
特殊算法:推荐算法。
1.大数据,小分析:即数据仓库领域的OLAP分析思 路,也就是多维分析思想。 2.大数据,大分析:这个代表的就是数据挖掘与机 器学习分析法。 3.流式分析:这个主要指的是事件驱动架构。 4.查询分析:经典代表是NoSQL数据库。
计算机视觉=图像处理+机器学习。图像处理技术用 于将图像处理为适合进入机器学习模型中的输入, 机器学习则负责从图像中识别出相关的模式。计算 机视觉相关的应用非常的多,例如百度识图、手写 字符识别、车牌识别等等应用。这个领域是应用前 景非常火热的,同时也是研究的热门方向。随着机 器学习的新领域深度学习的发展,大大促进了计算 机图像识别的效果,因此未来计算机视觉界的发展 前景不可估量。
It’s not who has the best algorithm that wins .
It’s who has the most data.
2006年,Geoffrey Hinton在科学杂志《Science》上 发表了一篇文章,论证了两个观点: 1.多隐层的神经网络具有优异的特征学习能力,学 习得到的特征对数据有更本质的刻画,从而有利于 可视化或分类; 2.深度神经网络在训练上的难度,可以通过“逐层初 始化” 来有效克服。
降维算法:降维算法也是一种无监督学习算法,其 主要特征是将数据从高维降低到低维层次。在这里, 维度其实表示的是数据的特征量的大小,通过降维 算法我们就可以去除冗余信息,将特征减少为面积 与房间数量两个特征,即从高维的数据压缩到低维, 如主成分分析
推荐算法:推荐算法是目前业界非常火的一种算法, 在电商界,如亚马逊,天猫,京东等得到了广泛的 运用。推荐算法的主要特征就是可以自动向用户推 荐他们最感兴趣的东西,从而增加购买率,提升效 益。

FaGc2e0bo1of4fo年reky人5月H工in1t智6o日n能:,D实e吴e验p恩室Le达a主r加n任in入、g开百N山度YU祖,数师担据爷任科,百学多度中伦公心多司创大首始学席人科、学 深教家度授,学,负习“责界G百的oo度泰gl研斗e大究Ya脑n院n”的Le的领C负u导n责工人作,尤其是Baidu Brain计划。
数据挖掘=机器学习+数据库。数据挖掘是一种思考 方式,告诉我们应该尝试从数据中挖掘出知识,但 不是每个数据都能挖掘出金子的,所以不要神话它。 一个系统绝对不会因为上了一个数据挖掘模块就变 得无所不能,一个拥有数据挖掘思维的人员才是关 键,而且他还必须对数据有深刻的认识,这样才可 能从数据中导出模式指引业务的改善。大部分数据 挖掘中的算法是机器学习的算法在数据库中的优化。
回归算法:线性回归和逻辑回归。 线性回归就是我们前面说过的房价求解问题。如何 拟合出一条直线最佳匹配我所有的数据?一般使用 “最小二乘法”来求解。“最小二乘法”的思想是这样的, 假设我们拟合出的直线代表数据的真实值。 逻辑回归是一种与线性回归非常类似的算法,但是, 从本质上讲,线型回归处理的问题类型与逻辑回归 不一致。线性回归处理的是数值问题,也就是最后 预测出的结果是数字,例如房价。
输入:身高、体重 输出:漂亮、一般 X={165,46} h(X)=1 X={154,66} h(X)=0 ....
X={162,52} h(X)=?
模式识别=机器学习。两பைடு நூலகம்的主要区别在于前者是从 工业界发展起来的概念,后者则主要源自计算机学 科。在著名的《Pattern Recognition And Machine Learning》这本书中,Christopher M. Bishop在开头是 这样说的“模式识别源自工业界,而机器学习来自于 计算机学科。不过,它们中的活动可以被视为同一 个领域的两个方面,同时在过去的10年间,它们都 有了长足的发展”。
相关文档
最新文档