机器学习与知识发现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习与知识发现
摘要:学习是为了知识的获取。
然而知识的发现过程,又是数据挖掘的过程,和机器对自身行为的修正或性能的改善和对客观规律的发现的学习过程。
本文以机器学习与知识发现的分类为切入点,详细探讨机器学习与知识发现的关系。
关键词:机器学习;知识发现;数据挖掘
Machine learning and Knowledge discovery
Abstract: learning is for knowledge acquisition. However the knowledge discovery process, it is the process of data mining, and machine for their actions to improve the performance of the modified or with the objective laws found of the learning process. Based on machine learning and knowledge discovery as the breakthrough point, detailed classification of machine learning and knowledge discovery discussed the relationship.
Keywords: machine learning; Knowledge discovery; Data mining
1、机器学习
1.1机器学习的概念
什么是机器学习呢?到现在,业界都没有一个统一的定义,目前在机器学习研究领域有较大影响的是H.Simon的观点:学习是一种改进,它能够让系统在执行同一任务或同一任务或同类的另外一个任务时比以前一次执行更好的任务改变。
学习能力是人类智能的根本特征,人类通过学习来提高和改进自己的能力。
机器学习的研究核心就是希望机器能像人类那样具有从现实世界获取知识的能力。
机器学习的研究目标有三个:模仿人类学习机理的研究,学习算法的研究,面向特定任务的研究。
1.2学习系统
根据H.Simon的理论,我们可以建立一个基本的学习模型。
一个有特定目标的的知识发现和获取的模型。
机器通过它获取知识,积累经验,发现规律,使自身性能得到改进,实现自我完善和环境的适应。
图1就是一个基本的学习模型。
图1基本的学习模型
在图1中,箭头代表信息的流向;环境是指外部信息的来源,他为整个学习系统的知识学习提供原始数据和材料;学习单元就是对环境提供的各种原始数据进行处理,顾名思义是一个学习机构,他通过对环境的搜索取得外部信息,再使他同执行单元反馈回来的信息进行比较,然后经过分析,综合,类比,归纳等学习方法获取知识,并将其存入知识库;知识库用于有效地存储通过学习所得到的知识,而且在存储时进行适当的组织,这样便于知识的应用和维护;执行单元处理系统面临的现实问题,即应用知识库中所学习到的知识求解问题,如定理证明,智能控制,自然语言理解等,然后对执行效果进行评价,并将评价结果的反馈给学习单元,以便机器进一步学习,这种周而复始的知
识的发现与积累,正是机器学习与知识发现形影相随的羁绊。
1.3机器学习的风范
随着人们对机器学习的深入研究,机器学习的发展也变得越来越快,应用也变得越发广泛,同时产生了很多很经典的算法。
主要的学习方法有归纳学习,类比学习,解释学习,发现学习,遗传学习,连接学习(神经网络)。
归纳算法是符号学习中研究的最多的一种方法,主要研究的是从一系列给定的正反事例中,归纳出一般性的概念,并提出了很多著名的算法,其中就有AQ算法,变形空间算法,ID3系列算法等;类比学习解决的是通过归纳找出源问题和目标问题的共有性质,推演出从源问题到目标问题的映射,进而得出目标问题的新的性质的问题;解释学习是以提高问题求解效率为目标,他主要依赖推演来产生更有效的问题求解知识。
发现学习是根据在已有的实验数据中发现新的知识和规律,是本文讨论的的重点;遗传学习是为了机器能够像人类一样能够继承和进化的学习而引入的模拟进化的算法(GEP算法),以解决复杂优化的问题,同时他也是近几年科学家们的热门研究之一;连接学习是基于人脑结构的神经网络理论,是机器通过典型的环境训练来识别不同的环境。
2、知识发现
2.1知识发现的概念
随着数据库技术的发展和信息时代的到来,现在可以说各行各业的信息量是成指数级的增长(甚至可以说在近几年的有文字记载的信息量(包括短信,微博,博客等等),都已经超过了中华五千年历史的所有文字记载的总和了。
这是一个信息爆炸的时代),那么怎么从这纷繁复杂的信息中发现有效的信息以供我们决策呢?这就要用到现今很热门的一项多学科交叉的研究科目了(多学科包括:数据库技术,机器学习,统计学,微观经济学等等),那就是知识发现(Knowledge Discovery in Datebase KDD 基于数据库的知识发现)。
它的提出使人们终于有能力认识到信息的真正价值。
那么什么叫知识发现呢?知识发现是指在海量数据中发现有效的,新颖的,潜在有用的,可理解的模式的非平凡提取过程。
2.2知识发现的过程
由KDD的定义可知知识的发现过程是原始数据的输入为开端,以提取得到有用知识并存入知识库为终点,周而复始。
大致的KDD过程可以分为以下步骤:
(1)数据预处理
1.数据收集,从多种数据源中去综合数据挖掘所需要的数据,保证数据质量
的综合性,易用性和时效性。
2.数据清理,清理数据中的冗余,噪音,过时数据的干扰,保证数据的质量。
3.数据转换,数据的归一化,离散化,降维处理等。
(2)数据挖掘
这一步的任务就是,根据任务的目标,运用选定的知识发现算法,挖掘数据库中潜藏的聚类,分类,关联模式,预测模式,时间序列,偏差检测模式等知识。
(3)知识评价
这一步的任务就是,利用各种有效的方法对发现的知识进行评价,这些评价的标准的综合称为规则或模式的感兴趣度,知识的感兴趣根据推理机制不同可以分
为客观和主观两部分,其中前者是应用数据的支持度,可信度,简洁性等为依据,
后者是以用户为参考,就是发现的知识要以用户能了解的方式呈现给用户,同时也
包含知识的一致性检测,确保知识的新颖性和实用性。
(4)知识表示
这一步的任务就是,一方面根据实际的推理应用知识模式的需要,用产生式规则,模型,决策表等形式表示所发现的知识,同时还可以采用柱状图,曲线图,
饼图等可视化的描述方法从多角度的去展示发现的知识,从而帮助用户对知识的理
解,分析和应用。
另一方面对知识进行存储,用于机器进一步的向前发展;这也是
本文所要论述的机器学习与知识发现的关系之一。
下图为KDD的基本过程如图2所示:
图2 KDD的基本过程
3、机器学习与知识发现的关系
3.1机器学习与知识发现的辩证观点
机器学习与知识发现是相互作用的,机器学习促进知识的发现,知识发现反作用于机器的学习,形成一个螺旋上升的机器学习与知识发现过程。
(1)机器学习促进知识的发现
从图1基本的学习模型,我们可以看出,学习是一个周而复始的知识的积累过程。
随着知识的增加,知识库的增长,机器将拥有更加丰富的知识经验来处理,外部环境变化所带来的一些干扰因素,并且通过比较,综合,归纳等方法决出一些有效的抗干扰的办法,简单一句话,就是从中发现新的知识来对抗变化了的外部环境。
从而促进了知识库的增长和知识的发现。
(2)知识发现反作用于机器的学习
从图2 KDD的基本过程,我们可以了解到,知识发现以后分成了两部分,一部分以用户能理解的方式,呈现给用户,供用户了解,分析,决策;另一部分用于知识的储备,作为应对外部环境的不定因素和下一阶段机器学习的基础。
因为机器学习需要知识库来支撑,所以知识储备的丰富与贫乏会直接机器学习的进度。
由于知识的发现是通过KDD过程从海量数据中得到的新的规则或模型,这样就更加丰富了知识库的储备,使得机器在进行进一步学习时,就会利用这些新的规则或模型去解决新的学习问题。
从而促进机器的学习。
3.2 机器学习与知识发现的结合
知识发现是从海量数据中抽取有效的,新颖的,潜在有用的,可理解的模式。
它是人工智能,数据库技术和统计学的结合,其核心是人工智能中的机器学习。
知识发现的核心技术是模式识别和关系识别算法。
它的很多算法来源于人工智能的机器学习领域。
他与机器学习协同工作的应用很多,如决策树算法。
决策树是一种类似于流程图的树状结构,它的每一个内部节点(非叶子节点)都代表了一个属性上的测试,即一个分裂属性。
它与知识发现结合的应用很广泛,使用决策树算法进行分类,可以很直观的从决策树图中看出分类规则,是一种具有速度快,精度高,生成模式简单,能处理大数据集等优点的分类方法。
例如“鸟能不能飞”对每一个属性进行信息熵的计算求其信息增益(这里引用的是ID3算法),然后决出节点的分类属性,这样重复一步步的走下去直到得到全部结果。
4、结语
随着人工智能技术的迅速发展,各种智能系统的研发已经成为计算机应用的热门研究,同时人们也对智能系统的要求逐渐提高,而智能系统的解决问题的能力主要是由它们的知识拥有量作为支撑。
因此怎么从海量数据中获取知识就成了棘手的问题,于是在人工智能核心技术——机器学习的影响下,知识发现(KDD)产生了,它更多的是运用机器学习的理论方法和技术,来获取新颖的,潜在有用的规律,来推动智能研究向前发展。
参考资料
[1] 史忠植,王文杰. 人工智能. 北京:国防工业出版社,2007.2
[2] 元昌安. 数据挖掘与SPSS Clementine应用宝典. 北京:电子工业出版社,2009.8
[3] 化柏林. 数据挖掘与知识发现关系探析. 理论与探索,2008.4
[4] 闫友彪,陈元琰. 机器学习的主要策略综述. 计算机应用研究,2004
[5] 田文英. 机器学习与数据挖掘. 石家庄职业技术学院学报,2004
[6] 唐常杰,相利民. 知识发现的研究现状、核心技术和哲学思想. 知识介绍,1999
[7] 蔡自兴,贺汉根. 智能科学发展的若干问题. 自动化学报,2002
[8] 张仰森. 人工智能原理与应用. 高等教育出版社,2004
[9] 刘琴. 机器学习. 武钢职工大学学报,2001
[10] 李雄飞,李军. 数据挖掘与知识发现. 高等教育出版社,2003
[11] 史忠植. 知识发现. 清华大学出版社,2002
[12] 梁晓音. 机器学习在数据挖掘中的应用. 计算机与信息技术,2008。