浅谈对机器学习的理解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈对机器学习的理解
人工智能大师西蒙曾说过:“学习就是系统在不断重复的工作中对本身能力的增强或
者改进,使得系统在下一次执行同样任务或类似任务时,会比现在做得更好或效率更高。
[1]”
说到学习,我们自然会首先想到人。
学习是人类一种非常重要的智能行为。
可以说,
人类进化史是一个漫长而优秀的学习过程。
一个经典问题:“假设有一幅彩色油画,画的
是一片茂密的森林。
在森林远处的一棵歪脖子的树上,有一只猴子坐在树上吃东西。
如果
我们让一个人找出猴子的位置,在正常情况下,我们可以在不到一秒钟的时间内指出猴子,有些人甚至可以看到猴子。
”一见钟情。
“为什么一个人能同时识别出由数百种颜色组成
的多种图案的猴子呢?原因很简单,而经验告诉我们的所有信息都是通过之前的学习获得的。
例如,当我们提到猴子时,我们会在潜意识中出现我们以前见过的猴子的许多相关特征。
只要画中的图案与正在出现的猴子特征相似,我们可以认出图案是猴子。
当然,承认
错误也是可能的。
这是因为对事物的特征识别不够准确,需要进一步研究。
机器学习,顾名思义,就是使机器模拟人类的这种学习能力。
在计算机界机器一般指
计算机,传统意义上,如果我们想让一台计算机工作,只要给它输入一串指令,然后让它
遵照这个指令一步步执行下去即可。
但机器学习是一种让计算机只能利用数据而不是遵循
指令来进行各种工作的方法。
那么计算机能否像人一样具有学习能力呢?1959年美国的塞缪尔(samuel)设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善
自己的棋艺。
4年后,这个程序战胜了设计者本人。
又过了3年,这个程序战胜了美国一
个保持8年之久的常胜不败的冠军[2]。
这个程序向人们展示了机器学习的能力,在计算
机领域内造成了巨大的轰动。
通过以上分析,我们可以看出机器学习的过程类似于人类思维、基于经验的识别和归纳,但是它可以考虑更多的情况并执行更复杂的计算。
事实上,机器学习的主要目的之一
就是将人类基于经验的思维、识别和归纳过程转化为一种方法,让计算机通过对现有数据
的处理和计算,获得一定的规律模型,并根据该模型预测未来。
计算机处理的模型可以以
类似于人类的方式解决许多灵活而复杂的问题[3]。
1997年tomm.mitchell在“machinelearning”一书中给出了机器学习的经典定
义――“计算机利用经验改善系统自身性能的行为[4]。
”实质上,机器学习是一门多领
域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
机器
学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织
已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的
根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎[5]。
由于机器无法根据人类思维等事物的特点自然选择分类方法,因此机器学习方法的选
择仍然需要人工选择。
目前,机器学习方法可以根据训练数据集是否被标记分为三类:有
监督学习、半监督学习和无监督学习[6]。
监督学习是利用一组已知类别的样本来调整分
类器的参数,以达到所需的性能。
在监督学习下,输入数据称为训练数据。
每组训练数据
都有一个明确的标志或结果,即从已知信息中推断未知信息。
常用的算法包括navebayes、SVM、决策树、KNN、神经网络和logistic分析。
半监督学习主要使用少量标记样本和大
量未标记样本进行训练和分类。
在半监督学习下,识别输入数据部分
未被标识,这类学习方法可以用来预测,但是必须首先知道学习数据的内在结构以便
分类,也就是根据少量已知的信息和大量未知的信息进行分类。
其中常见的算法有最大期望、生成模型和图算法等。
无监督学习中所有数据均不被特别标记,该学习模型是为了推
断出数据的一些内在结构,也就是及其完全自学。
其中主要的算法有apriori、fp树、k-means以及目前比较火的deeplearning。
很明显,无监督学习是最智能的,有能实现机器
主动意识的潜质,但发展比较缓慢。
监督学习是不太靠谱的,从已知的信息推断未知的信
息就必须了解事物所有特性,这在现实中往往是不可能的。
半监督学习是“没办法中的办法”,既然无监督学习很难而监督学习不靠谱,就只好两者折中各取所长。
目前的发展是
监督学习技术已然成熟,无监督学习还在起步,所以对监督学习方法进行修改实现半监督
学习是目前的研究主流。
毫无疑问,在2022之前,机器学习的应用在车牌识别、网络攻击防范、手写字符识
别等一些特定领域起到了很大的作用。
然而,自2022以来,随着大数据概念的兴起,大
量的机器学习应用与大数据高度耦合。
几乎可以认为,大数据是机器学习应用的最佳场景。
你能找到的每一篇介绍大数据魔力的文章都会说明大数据是如何准确地预测事物的。
例如,经典的谷歌使用大数据来预测美国一个小镇的H1N1流感爆发,而百度预测2022世界杯从
淘汰赛到决赛的所有预测都是正确的(7)。
是什么让大数据如此神奇?简而言之,这是
机器学习。
正是基于机器学习技术的应用,数据才能发挥其魔力。
大数据的核心是利用数据的价值,而机器学习是利用数据价值的关键技术。
对于大数
据而言,机器学习是不可或缺的。
相反,对于机器学习而言,越多的数据会就越能提升模
型的精确性,同时,机器学习算法复杂的计算时间也迫切需要分布式计算与内存计算等关
键技术。
因此,机器学习的兴盛也离不开大数据的帮助,大数据与机器学习互相促进相依
相存。
机器学习是目前最流行的计算机技术之一。
从在线淘宝到自动驾驶技术,以及网络攻
击防御系统,都有机器学习应用。
同时,机器学习也是实现人工智能的核心技术。
目前,
人工智能的各种应用都离不开机器学习技术,比如微软的小兵聊天机器人。
作为当代计算
机领域的开发者或研究者,我们都应该了解一些机器学习的相关知识,这可以使我们更好
地理解当代科学技术的发展过程。
参考文献:
[1] 机器学习研究与应用的新进展[2]机器学习的研究现状与发展趋势[3]台大机器学
习的基石课堂笔记
[4]mitchell,t.m.著,曾华军,张银奎等译.机器学习.机械工业出版社,2021.[5]andrewngcoureramachinelearng.。