基于知识元细粒度信息检索研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于知识元细粒度信息检索研究
李伟
【摘要】为了满足信息用户更精确的信息检索需求,对基于知识元的文献内容知识层的检索进行了探析.论述了信息检索的粒度问题、知识元的相关概念、知识元检索理论技术、知识元检索的研究成果.知识元检索的理论技术尚未成熟,需要深入研究与探索.
【期刊名称】《农业图书情报学刊》
【年(卷),期】2017(029)002
【总页数】4页(P12-15)
【关键词】知识元;细粒度检索;知识管理
【作者】李伟
【作者单位】北京理工大学图书馆,北京100081
【正文语种】中文
【中图分类】G250
通过人机系统用户在一定程度上可以从各种信息资源中获取所需信息。
随着网络在社会中的应用日益广泛,通过网络生产、利用、获取、传播信息的模式也在发生变化,信息生产和利用的周期在缩短,信息的类型以及用途愈加多样化。
这使得传统的信息检索已不能满足用户的信息需求,提供有意义的知识才能满足用户需求。
信息检索研究的历史由来已久,随着社会的发展、技术的进步,信息检索的方式由原来的手工检索发展至机械检索,进而发展为计算机检索。
互联网的出现让计算机
检索的可行性以及有效性发生了本质的改变。
用户越来越依赖于通过互联网获取所需的信息资源,互联网的发展、应用使得社会进入了“信息爆炸”时代。
海量的信息资源并没有带来知识的富足,相反由于海量无关的信息充斥于网络空间,获取所需信息的难度日益增加,用户顿时陷入了“知识贫瘠”的尴尬场景。
由于
网络信息的多样化,组成结构复杂化,难以被有效组织成为有序的知识集合,检索系统的性能以及用户个人的信息处理能力在不同程度上制约着信息的有效利用。
在数字化信息时代的“信息爆炸”中,信息技术手段成为对信息资源进行深度组织
与控制主要方式,使得信息检索的粒度可以突破文献本身而深入文本内容之中,实现细粒度的信息检索,为直接向用户提供优质的知识成为可能。
传统信息检索采用关键词匹配方法,其检索结果通常是各类文献。
这些文献的内容常包含大量的无关信息,质量无法保证。
这是由于信息检索的层次进行在文献级,与关键相匹配的是文献的题名、篇名、文摘、关键词等。
这些检索点可以在一定程度上反应文献内容,但不是文献内容本身。
如果能够对文章的内容进行分析、加工,提取出其知识,并在检索时直接对这些内容提炼出的文献知识进行检索匹配,实现细粒度化的检索,向用户呈现知识单元而不是整个文献单元,那么必然可以提高信息检索的质量。
这对于满足用户日益精确化的信息需求,应对日益复杂化的网络信息环境有着重要的意义。
在将信息组织深入到文献的内部,信息检索细粒度到文献的内容知识单元层面,研究者们都进行了深入的研究探讨,提出了新的理论和观点。
在众多研究成果的推动下,“知识元”这一概念被提出并逐渐得到了完善。
“知识元”一词源于“数据元”[1]在倡导知识管理的背景下提出,经过了一段时间的理论探索和应用研究,但尚未形成关于知识元的统一的定义。
关于知识元的研究在国内已经有了大约20年的历史。
早在1993年朱晓芸等[2]首次提出“原子知识元”的概念,可视为国内有关知识元研究的开端[3],国内有关
知识元的研究已经形成了一些有影响力的学者群。
研究者们对知识元的定义进行了不同的表述,侧重点各不相同。
如温有奎等[4]认为知识元是构造知识结构的基元,知识元是知识系统的最小元素;柳长华[5]将知识元定义为知识系统中可以表达一
个完整概念的不可再分解的最小知识单位;文庭孝[6]认为知识元是指文献中相对
独立的、表征知识点的一个元素,它可以是一段文字、一幅图表、一个公式、一段动画等,也往往直接指知识产品中的概念、论点、论据、论证方法/模型、结论等
知识核心和知识创新点。
周宁等[7]认为知识元是一个有确定意义的词组集合,是
不可再分的知识单位。
姜永常等[8]认为,知识元是构成知识的最小单元,用来表
示不同问题的解决方案。
由上述者学者对知识元的描述,可以对知识元的概念总结出一个初步的认识:(1)知识元是组成知识的单元;(2)知识元可以独立、
完备地描述某一知识;(3)知识元之间相互组合、链接可以形成知识。
知识元检索的理论在一定程度上延续传统的信息检索理论的研究成果,同时结合知识管理的相关理论,因此知识元检索具有其独特性。
3.1 知识元检索与传统信息检索
在当前信息过载的网络环境下,传统的信息组织技术已经不能满足信息用户复杂、个性化的信息需求,将信息组织与检索融入文献内容,探索更精细具有一定专指度的知识是知识认知进一步加深的结果。
知识元的引入可使检索深入到文献内容之中,实现更深层次的信息处理。
由于知识元检索是更深层次的检索手段,同时结合了知识管理的相关理论,它不同于传统的信息检索略。
知识元检索与信息检索的不同之处在于两者所处理的对象层次不同。
传统的信息检索对文献进行组织,检索结果是文献集合。
知识元检索对知识元进行处理,知识元是文献中的知识单元,文献的知识包含于文献内容中。
因此知识元检索可以认为是一种知识检索,信息用户利用知识元检索时所获取的是知识本身。
此外,知识元检索与传统信息检索所采用的信息组织技术不同。
传统信息检
索在一定程度上对文献进行处理,在长期的研究与实践中所衍生的各类信息组织技术不适用于以知识元作为组织对象的知识元检索。
知识元检索在对知识元进行组织时需要采用适合知识元的抽取、标引、链接技术,为用户提供的检索结果需要进行知识元聚合,以便于用户浏览、利用。
最终,知识元检索在解决用户的信息问题的效率不同与传统信息检索。
传统信息检索将文献呈现给用户,用户需要浏览文献的内容后经过知识遴选才能够解决信息需求。
在理论上而言,知识元检索返回给用户的知识就是可满足其信息需求,无需再次对检索结果进行甄别。
3.2 知识元检索的相关理论与技术
知识元检索有别于传统信息检索,其实现不仅需要传统信息组织理论与技术也需要采用能够对知识元进行处理的手段。
3.2.1 知识元的抽取、表示、标引与链接
知识元检索的处理对象是文献中的知识元,因此知识元检索必然会涉及到知识元的相关处理技术,包括知识元的抽取、表示、标引、链接等。
知识元抽取是指将知识元从文献的相关内容中提取出来,以便进一步处理。
知识元隐藏在文献的内容之中,其自身并没有明确标记,如何能够准确地提取出隐含在文献中的知识元显得非常重要。
在知识元的抽取方面,国内学者已经取得了一定的成果,如温有奎等[9]对消息型、定义型等十一种类型的知识元的选取规则和抽取规则分别进行了说明,姜永常[10]提出了知识元抽取在对象选择和实体结构上应遵守的原则等等。
知识元的表示可以采用知识表示的理论与方法,因为知识元拥有独立完备地描述某一知识的特性,所以知识元同样也可视为知识。
常用的知识表示方法有谓词逻辑表示法、产生式规则表示法、语义网络表示法、框架表示法、面向对象的知识表示方法和基于本体的知识表示方法等[11]。
基于知识元的标引为知识元检索向用户返回知识奠定了基础,是知识元检索实现的关键之一,知识标引的诸多成果同样可以适当引入至知识元的标引中。
国内的学者
已经对知识元标引进行了尝试性的研究,柳长华[5]在分析中医古文献知识结构、
内容特点等基础上,提出了以知识元为核心的中医古籍计算机知识表示方法。
在此基础上制定了一系列的标引规范,并尝试采用古籍整理的方式对各种类型的中医古籍进行知识元的抽取与标引,取得了良好的效果。
原小玲[12]在对知识元特征研究的基础上,深入探讨了知识标引的各个环节。
但目前对于知识元的标引的研究成果依然偏少。
知识元本身具有独立性,知识元之间也具有语义逻辑关系,将独立的知识元通过知识元链接排列组合能够组成知识单元形成知识体系。
知识元检索不能将知识元作为一个独立的个体进行处理,这样则造成语义缺失以及知识浪费,通过知识元链接形成知识网络才能实现高效率的知识检索服务。
知识元链接属于知识元处理的高级手段,它能够真正的实现知识的增殖与复用。
关于知识元的链接领域,目前大多数的学者处于理论的探索、讨论阶段。
3.2.2 语义Web技术
知识元具有其结构性、语义性的特性,仅从语法信息的角度来对知识元进行处理效果一般。
1998年Tim Berners-Lee等人提出了语义Web的理念,近20年来语义Web不断受到了多个研究领域的重视,获得了很大的发展。
目前位于语义Web的下层的XML、NS和XML Schema技术的发展已经趋于基本成熟,并证明了其科学性和
实用性,这为语义Web其他层面的技术的发展提供了良好的基础。
在实践方面,语义Web技术在信息检索、自然语言处理、Web服务、语义标注等领域中的应
用已经较为普及。
综合而言,语义Web技术的发展呈现出良好的前景。
语义Web技术可认为是知识管理的典型技术之一,凭借其自身具备的“机器可
理解”与“人可理解”的特性,能够较好地进行知识表示、知识发现、知识获取
和知识集成等行为。
知识元检索以知识元作为处理对象,同样属于知识管理的范畴,
因此语义Web技术的应用对于知识元检索的实现有着巨大的帮助。
事实上,许多学者在研究知识元的应用时均引入了本体的知识,如柳长华教授构建了中医古代文献数据库,用来发掘中国古代中医文献;肖怀志[13]进行了基于本体的历史年代知识元应用研究等等。
本体是语义Web技术的一个重要组成部分,描述的是特定领域中的概念与概念之间的相关关系,提供了一个学科领域中概念的词表以及其概念间的关系。
基于本体对知识进行处理可以确保知识供需双方能够对同一个知识保持共识,这对于知识元的组织与共享意义重大。
可见,知识元的应用研究与语义Web技术的联系是非常紧密的。
3.2.3 人工智能技术
人工智能技术同样是知识管理的典型技术之一,对知识元的组织与检索有着重要的帮助。
如果说语义Web技术通过对数据进行规范化处理降低了机器理解知识的难度,人工智能技术则是在提高计算机智能化处理知识信息的能力。
人工智能对知识处理的研究主要包括理论与应用研究两个方面。
理论研究侧重于人工智能的基础理论,包括知识表示、智能搜索、推理、机器学习等;应用研究侧重于特定问题的解决方案,包括专家决策系统、数据挖掘、模式识别和计算人工智能等[14]。
目前由于传统Web信息资源的复杂性,人工智能技术不能够满足计算机进行知识处理的需要。
但不可否认人工智能技术在知识管理与机器可理解方面有着极大的优势,同时也是信息检索自动化未来发展的方向。
3.3 国内知识元检索应用的研究现状
国内的研究者们不仅对知识元的相关理论进行了研究,同时也对知识元的应用进行了探索。
不仅针对知识元检索提出了一些系统模型,同时也形成了知识元检索的实践成果。
例如,CNKI知识搜索平台是比较成熟的研究成果。
清华大学于1995年9月创办了《中国学术期刊》,后来发展成为中国知识基础设施工程,即CNKI
工程。
CNKI目前已经拥有多个知识元库,可以实现基于知识元的知识聚类功能、CNKI学术定义搜索、CNKI数值知识元搜索、CNKI图形表格搜索等等[15]。
除了知网的CNKI知识搜索平台,国内学者在对知识元进行研究时也获得了多种与知识元检索相关的研究成果,如柳长华对200余种各类中医古籍进行了知识元的抽取与标引,在此基础上建成了《中医药古代又献库》等,以B/S的模式为中医科研与临床提供知识服务。
廖开际[16]等开发了应急决策知识支持系统原型,其核心功能包括便包括应急文档检索和知识元检索。
目前完善的基于知识元检索系统并不多,未来随着知识元信息检索研究的深入,知识元检索系统将会逐渐受到众多用户的青睐。
随着网络信息量的逐渐增长以及信息用户对信息与知识的需求越来越精确,将信息检索深入到文献的内容层次,向用户提供细粒度的信息、精确的知识是一种必然趋势。
知识元作为组成文献知识的知识单元,对于细粒度的信息检索有着重要意义,知识元检索的发展符合信息检索发展趋势,发展前景广阔。
由于网络中信息资源的复杂性,知识元的研究推进艰难且受限于文本处理技术以及语义技术的研究现状,其应用并不广泛。
基于知识元的检索理论尚未成熟,亟待需要深入的研究与探索。
【相关文献】
[1]温有奎,焦玉英.基于知识元的知识发现[M].西安:西安电子科技大学出版社,2011:47.
[2]朱晓芸,陈奇,杨枨等.决策支持系统中的广义知识元及模型库[C]. 1993中国控制与决策学术年会论文集,1993:779-782.
[3]丁侃.基于知识元的中医古籍方剂知识表示研究[D].中国中医科学院,2012:1.
[4]温有奎,徐国华.知识元链接理论[J].情报学报,2003,22(6):665-670.
[5]柳长华.基于知识元的中医古籍计算机知识表示方法[C].第三届国际传统医药大会文集,2004:240-241.
[6]文庭孝.知识单元的演变及其评价研究[J].图书情报工作,2007,51 (10):72-76.
[7]周宁,余肖生,刘讳等.基于XML平台的知识元表示与抽取研究[J].中国图书馆学
报,2006,32(163):41-45.
[8]姜永常,杨宏岩,张丽波.基于知识元的知识组织及其系统服务功能研宄[J].情报理论与实
践,2007,30(1):37-40.
[9]温有奎,温浩,徐端颐等.基于知识元的文本知识标引[J].情报学报, 2006,25(3):282-288.
[10]姜永常.知识构建的基本原理研究(上)——知识构建中的知识状态演变及其基本原则[J].图书情报工作,2009,53(4):106-110.
[11]徐宝祥,叶培华.知识表示的方法研究[J].情报科学,2007,25(5):690-694.
[12]原小玲.基于知识元的知识标引[J].图书馆学研究,2007,(6):45-47.
[13]肖怀志.基于本体的历史年代知识元应用研究[D].武汉大学,2005: 84.
[14]蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社,2004: 10-21.
[15]卢城晓.基于知识元检索的知识相关度研究[D].南京大学,2012:16.
[16]廖开际,熊会会,叶东海.基于知识元理论的应急文档结构化建模[J].计算机应用研
究,2011,28(1):175-178.。