大数据时代下机器学习的应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代下机器学习的应用研究
作者:韩雪纯
来源:《科技风》2018年第19期
摘要:大数据时代下数据的出现和传输呈现出了一种以几何形式增长的形态出现,不论是数据的规模、内容还是精确程度都为服务器的进步与完善带来了极大的挑战。本文以此为出发点,就大数据时代下机器学习的应用研究做详细深入的探究,主要针对当下机器学习的重要内容做分析。
关键词:大数据时代;机器学习;数据;应用
大数据时代的到来给传统机器的学习提出了一个较为巨大的数据难题,即如何面对庞大的数据群体开展处理活动,目前传统机器学习主要存在的问题在系统与用户的语言差异及如何模仿并模拟人的学习过程。基于当下对于大数据处理的基本要求,如何满足上述条件,成为了传统机器学习主要方向。
1 基于大数据时代下机器学习的评价指标
数据的庞大性及处理的复杂程度对于传统机器提出了极为严苛的要求,但当下传统机器的处理能力有限,显然不能满足当下的需求,进而形成了传统机器的发展缓慢与大数据需求激增的矛盾。因此传统机器需要进行机器学习,以全新的运营系统及算法来满足当下需求,而评价其传统机器是否达标需要通过以下几个方面来评价。
(1)计算速度的评价指标。大数据时代最突出的特征就数据的数量与其产生的速度,因此机器学习的评价指标中,计算速度作为一个重要指标,是检验机器学习是否符合当下标准的重要内容。而在机器计算速度的评价指标中,与计算速度相关的速度内容又包括训练与预测两方面,训练与预测是两个不可分割的内容[1],前者是指在计算中得出最优方案的计算速度,后者则是指运用最优方案进行计算产生结构的具体速度,两者的结合共同成为衡量机器计算速度的重要标准。
(2)泛化能力的考察与实践。机器学习的根本目标,是通过学习,将能够得出的最优方案进行推广,成为可以广泛使用的方案,因此对数据处理能力的合理性,即机器学习的泛化能力也成为了当下衡量的重要标准之一。
(3)数据处理与标识能力。数据处理与标识能力是指在当下数据中,机器对于数据进行分辨,将有标识的数据进行处理与运用,未标识的数据在传统机器计算中处于废弃不完整数据,会被丢弃,但是实际这些数据中有很多数据可以重新被标识,成为完整数据被利用。因此,对于数据的处理与标识能力也成为了当下机器学习的重要评价标准之一。
(4)错误代价的处理及收敛反应。对于机器计算中出现的错误及造成的代价与机器自身的收敛反应也称之为代价敏感,代价敏感是基于在训练计算只能够,机器对于出现错误造成的数据损失是否能够尽快回复和收敛,并基于损失数据,计算产生代价得出相应的结论,这是基于大数据时代下,数据整理缺乏一定的统筹性,很多数据的质量与内容参差不齐,因此,代价敏感作为机器学习算法中需要实际应用的一个内容,更是机器学习新技术的推广考核重要标准。
(5)对于算法的可解释性及预测结果分析。对于用户而言,机器计算的过程是“幕后”进行的,用户只通过输入相关的指令,就可以看到输出的数据内容,但对于内容产生的方式、原因及过程往往一概不知,这就造成当下数据泛滥,用户面对复杂数据处理时,机器学习能力较差,用户无从解决的现象出现。归根究底是对于机器算法的可解释性一直以来被稀释,不被重视,而基于大数据时代的到来,机器的可解释性也应当作为其重要的数据考核标准成为当下计算学习的评价体系中的一方面。[2]
2 对于当下机器学习应用的关键技术探究
截止到目前为止,机器学习应用的关键技术主要通过机器学习理论框架构建的十余种关键技术,本文着重分析其中三种应用最为广泛的机器学习关键技术。
(1)半监督学习技术。半监督学习技术是基于传统机器计算弊端产生的机器学习技术,在传统机器数据处理时,对于未标识的数据,一般以损失数据进行处理,数据被丢弃,这种就是在传统机器中较为常见的无监督学习,与其对应的监督学习就是处理以标识的各类数据。半监督学习技术基于两者之间,一方面地域有标识数据进行处理,一方面将未标识数据进行分类,在分类的基础上重新处理,将未标识数据中的完整数据、有用数据进行分类,归入有标识数据,从而实现数据的回收利用,提高数据利用率的同时,避免了数据浪费现象的出现。尤其是在基于当下数据泛滥的大数据时代,未标识数据的数量远远高于标识数据,其未标识数据的价值如果不加以重新分类梳理,很多有价值的数据就会被浪费。
(2)不同学习系统的集成学习技术。不同学习系统的集成学习技术就是指将不同学习系统进行整合,来实现优化现有学习系统,各取所长的学习构架。其原理简单来讲,可简化为“团结就是力量”,不论是机器还是人,都需要依靠团队的力量,单个学习系统再强大,也不过集成系统的优势,将不同机器的学习系统串联共同使用,不仅是应对当下大数据时代的数据处理问题,更是机器学习拟人的一个重要过程中,与此同时,集成学习技术本身是建立在现有学习系统之上开展的,难度系数不大,另一方面广泛的运用能够为数据的分析与处理发展趋势提出更多可发展方向。
(3)分类与迁移标识数据学习技术。在上文中提到,大数据时代虽然带来庞大的数据量,但是这些数据的质量参差不齐,因此需要进行标识数据与未标识数据的处理来分类,简化数据处理的内容及工作量,而这个分类过程就是本文所指的分类与迁移标识数据学习技术。该技术需要基于一定的训练数据基础上进行,但是大数据时代提出了更大的难题,即不仅数据的
数据几何形式上升,对于数据的实质内容、分类,也大大激增,如果不同数据领域之间都进行一定基础的训练数据再投入使用,所耗费的人力物力是不现实的,也不符合当下机器学习的原则。因此,要求机器学习技术的拟人化,将已有的训练数据领域互相结合,即如同人在面对困难时,会先运用已有的知识寻求解决困难的办法,这也是机器学习应用技术的一个非常重要的方面。
3 结语
大数据时代的到来与快速发展,对于机器学习的应用将会提出更多具有挑战性的内容,机器的拟人化学习是当下学习技术中最为广泛应用的一种方式,也是未来机器学习发展的一个主要趋势和基本方向,更是机器学习在后续发展中需要不断实践与论证的主要内容。
参考文献:
[1]何晓飞,张敏玲,郭茂祖.大数据时代的机器学习研究专刊前言[J].软件学报,2015(09):144145.
[2]基于三元概念分析的机器学习算法研究及应用[D].郑州大学,2017.