大数据下的机器学习

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《程序设计方法学》

课程论文

题目:大数据下的机器学习通信与信息工程学院1014010216唐川宗平2014/2015学年第二学期

院学

号姓

名指

导老师日期

大数据下的机器学习

摘要:随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。由于大数据的海量、复杂多样、变化快的特性,如何有效利用大数据中的信息,并使用这些信息提高生产率成为迫切需要解决的问题。机器学习是解决这类问题的有效方法之一。因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。本文旨在对机器学习的一些基本算法和在大数据环境下机器学习大概面临的一些问题进行初步介绍。

关键词:大数据,机器学习,分类,聚类,最优化方法,并行算法

1.大数据时代来临

经过20余年的努力,Internet已获得巨大的成功,由此,人们可以在不同时间与地域获取自己希望获得的信息。然而,有效获得信息是一回事,获得的信息是否能够有效且方便地使用则是另一回事。目前的现状是大量可以有效获得的信息,大约只有10%可以被使用,消耗了大量资源的信息不仅未能够被有效地使用,而且由于有用的信息正在更深地被掩埋在无用信息之中,变得更难以利用。花费了大量人力物力而获得信息,却无法有效使用,长此以往,这将与未获得信息无区别。如何有效利用这些被掩埋的有用信息已成为信息产业继续兴旺发展的关键。

大数据定义:有关大数据的定义有多种。一个狭义的定义:大数据是指不能装载进计算机内存储器的数据。尽管这是一个非正式的定义,但易理解,因为每台电脑都有一个大到不能装载进内存的数据集。广义的大数据定义为:一般意义上,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。

大数据特点:大数据有多方面的特点,从最开始的3V模型到目前扩展的4V模型就是以大数据的特点命名的。3V模型包括体积(Volume),速度(Velocity)和多样性(Variety);4V模型中的第4个V有多种解释,如变化性(Variability),虚拟化(Virtual)或价值(Value)。针对这些特点,大数据时代知识解析、机器智能与人类智能协调工作及智能分析系统将会扮演重要角色,人们需要一种智能分析接口将人类与计算机世界连接,否则将被

淹没在大数据的洪流中。

2.机器学习

自从计算机被发明以来,人们就想知道它能不能学习。机器学习从本质上是一个多学科的领域。它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成果。

机器学习的研究主旨是使用计算机模拟人类的学习活动,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。

这里的学习意味着从数据中学习,它包括有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和半监督学习(Semi -Supervised Learning)三种类别。有监督学习需要对已知的样本进行训练得到算法模型,然后对未知样本的度量结果(或者说是标签)进行预测;

而无监督学习则是直接预测未知样本的度量结果,没有实现训练的过程;

而半监督学习就是介乎两者之间的机器学习方法。

传统机器学习面临的一个新挑战是如何处理大数据。目前,包含大规模数据的机器学习问题是普遍存在的,但是,由于现有的许多机器学习算法是基于内存的,大数据却无法装载进计算机内存,故现有的诸多算法不能处理大数据。如何提出新的机器学习算法以适应大数据处理的需求,是大数据时代的研究热点方向之一。

3.大数据环境下的机器学习算法

3.1大数据分类

有监督学习(分类)面临的一个新挑战是如何处理大数据。目前包含大规模数据的分类问题是普遍存在的,但是传统分类算法不能处理大数据.

1)支持向量机分类。SVM法即支持向量机(Support Vector Machine)法,

由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔。因而有较好的适应能力和较高的分率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。

2)决策树分类。决策树可看作一个树状预测模型,它通过把实例从根节

点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。

决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多,有ID3、C4.5、CART等等。这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最好的属性将节点分裂2个或多个子结点,继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。对于分类问题,当叶节点中只有一个类,那么这个类就作为叶节点所属的类,若节点中有多个类中的样本存在,根据叶节点中样本最多的那个类来确定节点所属的类别,对于回归问题,则取其数量值的平均值。

3)人工神经网络算法与感知机。人工神经网络(Artificial Neural Networks

———ANN)提供了一种普遍而且实用的方法,来从样例中学习值为实数、离散或向量的函数。ANN学习对于训练数据中的拟合效果很好,且已经成功地涉及到医学、生理学、哲学、信息学、计算机科学等众多学科领域,这些领域互相结合、相互渗透并相互推动。不同领域的科学家从各自学科的特点出发,提出问题并进行了研究。感知机方法的原始动机是“人类学习的根源是神经系统”,根据神经系统的原理建立模型是解决学习的合理途径。由此,1956年,Rosenblatt根据James 在1896年提出的神经元相互连接与McCulloch和Pitts发现神经元的“兴奋”和“抑制”工作方式为基础,建立一种神经网络的数学模型,并使用线性优化的方法,奠定了感知机的理论基础,感知机提出之后受到Minsky的严厉批评。这个批评主要集中在两个问题上,其一,感知机模型不能向非线性(线性不可分)问题推广,这是对算法的批评;

其二,感知机是基于“黑箱”原理,学习后的模型与实际世界没有直接的对应关系,这是对模型形式的批评。

3.2大数据聚类

1)聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被

用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越

来越多的关注。Haven对比3种扩展的模糊c均值(FCM)聚类算法对

相关文档
最新文档