知识工程学一个新的重要研究领域

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

知识工程学：一个新的重要研究领域
黄荣怀1，李茂国2，沙景荣3
1师X大学网络教育实验室，100875; 2教育部高等教育司，100816;
3师X大学网络教育实验室，100875
[摘要]知识工程是源于专家系统建造而形成的一个研究领域，目前已经成为一个跨学科的综合学科。

本文
简要介绍了知识工程的概念，分析了知识工程的主要研究领域，如软计算、Agent 、自然语言理解、逻辑
与推理、形象思维研究、基于事例的推理、机器学习、知识本体论等的主要进展与存在的问题。

最后提出
广义的知识上程学是“一门研究人类智能与人类知识的机理，以与如何用机器模拟人的智能并促进人类知
识开展的学科〞，也可以且应该作为教育技术学的一个重要研究方向。

[关键词]知识工程；人工智能；教育技术；专家系统
一、知识工程概述
1977年第五届国际人工智能联合会议上，美国斯坦福大学(Stanford University)计算机系教授费哥巴姆(Feigenbaum)作了关于“人工智能的艺术〞(TheArt of Artificial Intelligence)的讲演，提出“知识工程〞这一名称，指出“知识工程是应用人工智能的原理与方法，对那些需要专家知识才能解决的应用难题提供求解的手段。

恰当地运用专家知识的获取、表达和推理过程的构成与解释，是设计基于知识的系统的重要技术问题〞[1]。

知识工程的开展从时间上划分大体经历了3个时期:
1．大约从1965年至1974年为实验性系统时期。

1965年费哥巴姆教授与其他科学家合作，研制出DENDRAL专家系统。

这是一种推断分了结构的计算机程序，该系统贮存有非常丰富的化学知识，它所解决问题的能力到达专家水平，甚至在某些方面超过同行专家的能力，其中包括它的设计者。

DENDRAL系统标志着“专家系统〞的诞生。

2．从1975年至1980年为M YCIN时期。

20世纪70年代中期MYCIN专家系统研制成功，这是一种用医学诊断与治疗感染性疾病的计算机程序“专家系统〞。

MYCIN专家系统是规X性计算机专家系统的代表，许多其他专家系统都是在MYCIN专家系统的根底上研制而成的。

M YCIN系统不但具有较高的性能，而且具有解释功能和知识获取功能，可以用英语与用户对话，答复用户提出的问题，还可以在专家指导下学习医疗知识，该系统还使用了知识库的概念和不准确推理技术。

MYCIN系统对计算机专家系统的理论和实践，都有较大的奉献。

3．1980年以来作为知识工程的“产品〞在产业部门开场应用的时期。

知识工程的研究，目前在美国开展得较为活泼和深入，并且主要集中在斯坦福大学。

人工智能的研究说明，专家之所以成为专家，主要在于他们拥有大量的专门知识，特别是长时期从实践中总结和积累的经历技能知识。

从知识工程的开展历史可以看出，知识工程是伴随“专家系统〞建造的研究而产生的。

实际上，知识工程的焦点就是知识。

知识工程领域的主要研究方向包含知识获取、知识表示和推理方法等，其研究目标是挖掘和抽取人类知识，用一定的形式表现这些知识，使之成为计算机可操作的对象，从而使计算机具有人类的一定智能。

人工智能的研究方向非常广泛，本文对以下几个典型的研究方向作简要介绍和分析，以此说明如何使机器(主要指计算机)“具有〞人类智能所面临的困难与存在的问题：
·软计算：模仿自然法那么的计算方法
·主体Agent：机器世界中有“思维〞的个体
·自然语言理解与机器翻译：让机器“懂得〞人类语言
·逻辑与推理：机器的“思维〞机制
·形象思维研究：让机器具有“视觉认知〞
·基于事例的推理：让机器应用“经历(知识)〞
·机器学习：让机器也能“学习〞
·知识本体论：认识“知识〞的本质
要让计算机“具有〞人类智能，首先必须了解“人类智能〞，“人类智能〞离不开“人类知识〞，因此必须研究“人类知识〞的机理。

另一方面，人工智能的最终目的还是为人类效劳，让人类具有更多的“智能〞，促进人类知识的开展，因此需要从教育、心理、传播、社会、经济等不同的角度和维度来研究有关人类知识的问题。

所以，笔者认为需要提出一个广义的知识工程学的概念，它是“一门研究人类智能与人类知识的机理，以与如何用机器模拟人的智能并促进人类知识开展的学科〞。

教育技术学作为一门涉与教育、心理、传播、信息科学等的综合性穿插学科，它不仅要研究教育中的“技术〞问题，而且要利用其研究主体的特殊知识背景来研究知识发现、知识处理、知识传播、知识扩散等问题。

因此，教育技术学作为一个联结教育、心理、传播、信息科学等学科的重要纽带，也可以且应该把(广义的)知识工程作为其一个重要的研究方向。

二、关于智能计算
但凡仿照自然法那么构造的计算，均可称为智能计算(putational intelligence)，有时也称为软计算( Soft puting)。

它主要包括三个内容：模仿人类处理方式引入的模糊计算(Fuzzy puting)、依据生物神经网络的工作规那么引入的神经计算(Neuralputing)和模仿生物界的“优胜劣汰〞法那么的遗传算法和进化计算(Evolution puting)。

人工神经网络是模仿人类大脑的某些工作机制的一类计算模型。

它始于1943年美国学者McCulloch和Pitt、首先提出的一种神经元的数学模型，即M-P模型。

在20世纪40、50年代形成了第一次高潮。

由于理论与技术两方面的限制，60、70年代进入第一个低潮。

到80年代中期，由于理论研究的进展，特别是有效学习算法(即下面要谈到的机器学习)的提出，如BP算法等，神经网络研究开场复苏，出现了第二次高潮。

到目前，第二次浪潮似乎已经退去。

神经网络在模式识别方面有一些成功的应用，包括用于分类、识别或优化计算等。

遗传算法是模拟自然界中按“优胜劣汰〞法那么进展进化过程而设计的算法。

Bagley和Rosengerg于1967年在他们的博士论文中首先提出了遗传算法的概念。

1975年Holland出版的专著奠定了遗传算法的理论根底。

如今遗传算法不但给出了清晰的算法描述，而且也建立了一些定量分析的结果，在众多领域得到了广泛的应用，如用于控制(煤气管道的控制)、规划(生产任务规划)、设计(通信网络设计)、组合优化(TSP问题、背包问题)以与图像处理和信号处理等。

对于软计算问题，目前主要的问题是算法的“可扩展性〞和“可理解性〞问题，即所给的算法对处理海量的数据是否有效以与由所给的算法得来的规那么、对人来说是否容易理解。

三、关于主体Agent
Agent是Minsky在1986年出版的《思维的社会》一书中提出的，认为社会中的某些个体经过协商之后可求得问题的解，这些个体就是Agent。

Agent应具有自主性、社会交互性、反响能力和预动能力，能通过感知环境而做出动作。

从Agent模型来看，有思考型Agent(如BDI表示和推理)、反映型Agent(不会推理，直接由感知到动作)和两者混合型。

Agent理论最初是作为一种分布式智能模型被提出的，其研究方法有逻辑方法与经济学方法两种。

对Agent思维状态的直观描述涉与信念、愿望、目标、意图、承诺、规划等概念。

DOC.
·信念，属于思维状态的认知方面，描述了Agent对当前世界状况以与为到达某种效果可能采取的行为路线的估计。

·愿望，属于思维状态的感情方面，描述了Agent对未来世界状况以与可能采取的行为路线的喜好。

·目标，描述Agent的追求，实际是Agent从愿望中选择的了集。

·意图，引导并监视Agent的动作，属于思维状态的意向方面。

·承诺，描述Agent对于所追求的意图的坚持程度，并控制对意图的重新考虑，实际表示从目标到意图的转换。

·规划，把意图按特定结构组合为规划，它在意图系统的实现中起重要作用。

关于Agent理论的地位仍有争议，有的人认为A gent理论用于具体实现Agent，有的人认为Agent 理论是用于知识表示方面的，还有的人认为 Agent理论应是对认知科学和析学中一些概念的形式化。

目前Agent的成功案例包括有产品拍卖、军事演习与机器人足球赛等。

四、关于自然语言理解与机器翻译
自然语言理解的研究起始于机器翻译。

早在1946年，英国的A. Donald Booth和美国的W.Weaver 就开场了机器翻译方面的研究。

经过50多年的研究，出现了许多的理论与方法，如基于对话的、实例的、知识的、词汇的、神经网络的、原那么的、规那么的、统计(或语料库)的等机器翻译方法。

但并不像市场上机器翻译产品宣传广告讲的那么成功，就是国际上研究时间最长、最好的SYSTRAN 系统，在英法机器翻译过程中，1993年，对开放文本，到达流畅程度的译准率只有54%，一般还可以用的译准率到达74.3%。

可以想象，英法这两个同语系的语言的翻译水平就仅如此，那么不同语系的汉外翻译(如汉语译成英语)，要困难得多。

现今的机器翻译还只能翻译那些能想到的日常句了，即教科书句了。

信息检索也是一个非常热门的研究与开发领域，包括文本分类、文本主题识别、文本检索与自然语言检索、文本过滤、文本摘要、文本安排、文本信息获取、文本自动书写、文本挖掘等诸多领域。

从网上信息检索或搜索引擎的情况看，检索的根本准确率只有10%一20%。

自然语言理解和信息检索是语言信息研究的两个重要方面。

自然语言理解的根底是现代语言学的研究。

语言既是一个民族的根本，又是知识的最好表现形式。

但我国语言学的研究状况并不乐观，比方在汉语里面，到底应该分成多少词性，语言学界争论不休，至今没有一个定论。

另外像汉语的根本句型、汉语的语义分类、汉语带词性标注语料库等一系列根底性的工作没有开场或得不到足够的重视。

关于我国语言信息处理研究，根底研究仍然还是最重要的，包括提高分词的精度，建立带词性、词法搭配、句法和语义的国家级语料库。

关于研究方法，将更多地采用统计方法，特别是将统计与规那么结合起来。

一个总的趋势是局部分析代替全分析、局部理解代替全理解，局部翻译代替全翻译。

另一个值得注意的重要研究方向是，随机语言模型的建模工作正在由根本的线性词汇统计转向结构化的句法领域。

根据语料统计信息建立一定的优先评价机制，对输入句了的分析结果进展概率计算，从而得到概率意义上的最优分析结果。

五、关于逻辑与推理
一个数学理论通常包括概念的界定、命题的陈述和定理的证明等三局部。

数学理论中的概念有根本概念与合成概念之分。

根本概念是一些不加定义的抽象对象，一个新的合成概念由假设干根本概念或这个理论中已有的合成概念来定义。

数学命题有对错之辨、真假之分。

真命题可分为根本命题与被证明的命题。

根本命题是不证自明的命题，称为公理，它与人们的直觉与经历一致，被人们所承受。

一个数学命题的证明是指从公理和已有的定理出发，使用逻辑推理规那么，把命题作为推理规那么的逻辑结论推导出来。

命题是由概念与子命题通过逻辑连接词连接而成，与所谓的谓词逻
辑。

以上方法就是所谓的公理化方法，最早来自于欧几里德的《几何原本》；在数学理论中普遍采用。

后来又被推广到力学、物理学甚至生物学等其他自然科学。

公理化方法实际是一种整理知识，特别是数学知识的方法。

通过许多数学家的努力，用数理逻辑的语言和方法建立了一套关于公理系统的理论框架，这就是所谓的形式化方法。

在人工智能领域中，在知识表示与推理方面，仅靠公理化方法和数理逻辑是不够的，因此出现了许多新的理论与方法，包括非经典逻辑与开放逻辑等，非经典逻辑的典型代表是模态逻辑。

模态逻辑(Model logic)与其扩展(包括时态逻辑、认知逻辑、动态逻辑、表述逻辑和行为逻辑等)已经成为更适用于各种应用领域的逻辑系统。

根本的模态逻辑的语言是在经典逻辑语言的根底上，通过引入两个模态算了口(必然算了)和令(可能算了)得到的。

与经典逻辑不同，模态逻辑公式的真值不是函数地依赖于其组成局部的真值。

高效的模态推理方法和推理
系统的建立，是使用模态逻辑与其扩展作为知识表示工具成功与否的关键。

近些年来，模态推理的研究虽然距离人们的期望还有一定的距离，但也得到了长足的开展。

如认知逻辑已经成为一种表示知识与信念的有力工具。

表述逻辑是为表示概念和概念层次知识建立起来的逻辑语言。

表述逻辑有效推理方法的研究，又推动了常识问题表述和推理的研究。

当然，没有任何一种模态推理理论和方法具有通用的高效性，而且不管是推理理论研究，还是具体的推理技术研究，其系统复杂性都难于定量地分析。

另一类是开放逻辑，我国的李未院士等在这方面做了大量的工作。

在解决了逻辑推理规那么的可靠性和完全性问题之后，公理化方法应用的成功与否，关键在于如何挑选公理，使之能够刻画问题的本质，并使之与人们的认识和时间一致。

公理系统的形成是一个过程，即公理化进程。

他们在数理逻辑的公理化方法的根底上，通过引进新的概念，刻画公理化进程的根本特征，给出了公理化进程的理论框架，进而在某些特定的条件下给出了它的计算模型。

引进的概念有现论、新定律与事实反驳。

现论是指阶段性理论或现阶段的理论，它提醒了这个领域现阶段知识之间的逻辑关系，并使这些知识有清晰的逻辑结构。

我们可以将现论看成类似于认知心理学中的“图式〞。

随着时间的推移，当某些现象不能从现论中得到满意的解释时，人们就不得不修正这个现论。

这时出现两种情况：一是人们发现它是现有理论所没有涉与过的新现象，于是概括出新的原理并将它参加到现有理论中去，称之为新定律，这个过程类似于认知心理学中的“同化〞；二是现论所预言的现象没有发生，或者发生的是与之相矛盾的现象，即所谓的理论与实践不符，称为否决性判定试验，或对现有理论的事实反驳，这个过程类似于认知心理学中的“顺应〞。

因此，公理化进程是一种典型的关于知识的整理和认识的过程，它类似于一个人的“认知过程〞。

六、关于形象思维研究
在思维科学领域，借助于逻辑学，关于抽象思维的研究已取得了不少进展，但对形象思维的研究相对薄弱。

形象思维的研究主要包括记忆理论和认知模型。

Paivio从信息编码角度将长时记忆分为两个系统一一心象系统和言语系统。

心象系统以心象代码来存储关于具体的客体和事件的信息；言语系统以言语代码来存储言语信息。

Kosslyn于1981年在心理扫描实验的根底上提出了心象的计算理论。

他将心象的表征分为两层：表层表征和深层表征，前者是指出现在视觉短时记忆中的类似图画的表征；后者为存储在长时记忆中的信息。

Glasgow于1992年在《认知科学》上发表了一篇题为《可计算心象》的学术论文。

她较为系统地阐述了基于心象的问题求解，并提出了可计算心象的一种知识表达框架，她把心象的表达分为3层：描述性表达(长时记忆)、视觉和空间表达(工作记忆的两种形式)，描述性表达基于命题，视觉和空间表达基于嵌套的符号矩阵，并提出了心象表达的基于矩阵的形式化理论和基于矩阵的形象处理操作。

她的研究工作具有突破性意义，在人工智能界和认知科学界引起了极大的反响。

除此以外，对于心象在计算机中的模拟和表征的研究，还有许多其他的理论与方法：心象的傅DOC.
立叶模式(认为心象在人脑中是以傅立叶变换形式存储的)、区域生长法(认为心象在人脑中是由一些分割后的区域来表示的)、纹理表示理论(认为心象是通过纹理分析来获得和加以表征的)、形态学理论(认为构成视觉认知根底的形态是由更根本的点通过扩X、生长、侵
蚀等形成)和形象信息模型(认为视觉信息包括三局部：形状、色彩、质感等视觉心象的性质；构成、类比、相邻等结构信息；与该心象所联系的概念、所激发的情感以与该心象所联系的听、嗅、味、触、运动等其他种类的形象)。

以上模型大局部只是一种理论框架或者已经有些计算机模拟程序。

七、基于事例的推理
CBR方法同人类的日常推理活动十分接近，它来自于人类的认知心理活动:推理者(指以推理方式求解问题的人)在求解一个新问题时，往往习惯于借鉴他(或她)以前对类似问题的处理经历。

当新出现的问题是他以前处理过的问题的简单重复时，他可以把处理旧问题的成功经历直接用于求解该新问题；而当新问题是推理者从来没有遇见过的问题时，他也可以回忆起一个(或多个)类似的旧问题，通过类比得到重要的指导或提示，加一些规律性知识作为指导，完成对新问题的解决。

当然，处理过的新问题又会被当作经历记下来，用以处理以后的问题。

与传统的基于规那么的问题求解方法相比拟，CBR具有一些重要的优点。

CBR系统易于获取知识，防止了传统知识系统进展知识获取时的瓶颈问题。

知识库的维护方便，不需要领域专家干预。

CBR 方法扩大了解决问题的X围，可以得出创新的解答，同时简化了求解过程，节省了问题求解时间，解的质量也得到提高。

对于系统所得的结果易于给出解释，并且易于被用户承受。

CBR方法对于构建高性能的专家系统是一种好方法。

1994年，阿莫特(Aamodt)把CBR方法的开展趋势概括为四个主要方面：与其他学习方法的集成；与其他推理方法的集成；被融合成大规模并行处理；通过认知科学的新进展带动CBR方法的进步。

近几年，人们发现CBR系统在知识管理方面有良好的性能，出现了一些以CBR方法进展知识管理的研究工作。

八、关于机器学习
关于机器学习的一般说法来自于Simon对学习的阐述：“如果一个系统能够通过执行某种过程而改良它的性能，这就是学习〞。

机器学习研究的一个重要里程碑是1943年McCulloch与Pitts对神经元模型(简写为MP模型)的研究。

其意义在于首次发现了人类神经元的工作方式，并给出了其数学描述。

事实上计算机科学与控制理论均从这项研究中受到了启示。

按照其受启发的机理来分类，机器学习可以分为基于分子生物学的机器学习、基于神经生理学的机器学习以与基于认知心理学的机器学习。

而后者按照依据的心理学现象可以分为归纳机器学习、解释机器学习、类比机器学习等。

也可以根据被学习的对象(相当于知识)是否可以表示为关系型数据库形式，将机器学习分为结构化机器学习(相当于良构知识)与非结构化机器学习(相当于非良构知识)。

根据数据的数学性质与对机器学习不同的需求，结构化机器学习可以分为基于符号的机器学习与基于统计的机器学习，它们的理论根底分别为RoughSet( RS)理论与支持向量机(SVM)。

对于非结构化的机器学习的分类十分困难，这与非线性问题中所遇到的问题类似。

在历史上，机器学习根本上是在经历X畴内进展的，随意性相当严重。

其一，机器学习往往受启于某个自然科学的原理，特别是认知心理学的原理，认知心理学研究中的随意性也带入了机器学习的研究之中；其二，对学习解的选择涉与搜索策略，使用什么样的搜索策略往往没有一般的原那么可循；其三，对学习结果的评价没有可以描述的标准。

九、关于知识本体论研究
从古希腊人开场，对于知识的研究与探索一直是人类追求的目标。

几千年来的情况都是这样的：析学家研究有关知识的一般特性与规律，而自然科学家孜孜不倦地猎取具体的知识。

20世纪中叶以后，这种研究格局发生了变化。

由于知识在人类文明中所起的作用越来越大，不仅是析学家、逻辑学家、教育学家和心理学家，而且计算机科学家也在认真地研究知识的一般特性与规律。

这是因为人类已经进入了信息化社会，而且正在向知识化社会前进。

苏格拉底(Socrates)认为，知识的惟一功能是自我认识，即人的智力、道德和精神的生活成长。

毕达格拉斯(Pythagoras)认为知识的目的是通过使用知识的人知道他想说什么和怎么说，从而使其行为更有效，知识就是指逻辑、语法和修辞。

中国儒家那么认为，知识是知道说什么、怎么说以与出人头地和俗世成功的途径。

对于道家来说，知识是自我认识和通向澄明的道路。

教育类辞书中流行的知识定义是:“对事物属性与联系的认识。

表现为对事物的知觉、表象、概念、法那么等心理形式〞[7]。

中国百科全书中的定义：“所谓知识，就它所反映的内容而言，是客观事物的属性和联系的反映，是客观世界在人脑中的主观映象。

就它所反映活动的形式而言，有时表现为主体对事物的感性知觉或表象，属于感性知识，有时表现为关于事物的概念或规律，属于理性知识。

〞[8]
著名认知心理学家皮亚杰曾提出区分两类知识：一类是物理经历，另一类是逻辑一数学经历。

前者可以说是来自外部世界，是客观事物与其联系在人脑中的反映；而后者是来自主体的动作。

皮亚杰的这一观点主要在知识的来源上加深了人们对知识的认识。

现代认知心理学家普遍认为知识分两大类，一类为陈述性，指“个人有意识地提取线索、因而能直接陈述的知识〞;另一类为程序性的，指“个人无意识地提取线索，因而其存在只能借助某种活动形式间接推测出来的知识〞。

前者是答复“是什么〞问题的知识，后者是答复“怎么做〞问题的知识。

这一观点在知识的作用和知识的检测方面加深了人们对知识的认识。

根据自动与受控维度，程序性知识可以分为受意识控制的程序性知识和自动化的程序性知识。

根据一般与特殊维度，又可以区分为一般的程序性知识与特殊的程序性知识。

前者适用于许多不同的领域，后者适用于某一特殊的领域。

知识工程的知识是泛指的，包括不同领域的知识，如医学的、农业的、军事的等；有不同性质的，如常识性知识、经历性知识、规律性知识等；有不同目的的，如用于诊断的、用于决策的、用于规划的等。

尽管目前已有各种各样的知识表示和推理方法，研制出了各种不同的知识系统，但这些系统之间的知识难以相互共享，系统之间难以进展互操作。

本体论(ontology)原本是一个析学概念，指关于存在与其本质和规律的学说，后被用于研究实体存在性和实体存在的本质等方面的通用理论。

计算机界借用这个理论，把现实世界中某个领域抽象或概括成一组概念与概念与间的关系，构造出这个领域的本体。

本体论正逐步成为知识获取以与表示、规划、进程管理、数据库框架集成、自然语言处理和企业模拟等研究领域共同关心的一个核心。

十、广义的知识工程学
对于智能的模拟而言，人类智能是人类在同大自然的斗争中，经过千百年的进化所获得的一种能力，它来源于人脑的具有充分复杂性的神经元网络，具有主动性、流动性、普遍联系性等特点。

人类智能的模拟一一机器智能，是人类智能的产物，来源于计算机系统，这就决定了它只能解决客观世界中能够形式化的、并存在具有适宜复杂度的算法可解的问题。

从人工智能的开展历史来看，其辉煌开展时期的两个里程碑式的突破为：[2]
一是人们利用符号表示和逻辑推理的方法，通过计算机的启发式编程，成功地建立了一种人类深思熟虑行为的智能模型；
二是人们运用同样的模型，成功地在计算机上建造了一系列实用的人造智能系统(专家系统)，DOC.。