数字图书馆数字资源中事实知识元识别与标引

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者简介:黄程(1995-)
,女,华中师范大学信息管理学院硕士研究生,研究方向:信息行为与信息服务㊂数字图书馆数字资源中事实知识元识别与标引
黄 程
(华中师范大学信息管理学院,湖北武汉430079
)摘 要:数字图书馆作为一种以网络技术为环境基础的知识网络系统,是重要的知识来源㊂为了满足用户精细化信息需求,数字图书馆数字资源的知识管理单位进一步细化到知识元㊂以事实知识元为研究对象,在对数字图书馆的数字资源管理现状及知识元的研究现状进行综述后,提出事实知识元的定义,针对事实知识元的特点,建立起事实知识元描述模型及抽取规则,以该抽取规则为基础,对事实知识元的抽取流程进行梳理,提出事实知识元描述框架㊂关键词:事实知识元;知识元抽取;知识元标引
中图分类号:G 252.7 文献标识码:A d o i :10.3969/j
.i s s n .1672-2272.2020030310 引言
20世纪70年代,谢拉(J .H.S h e r a
)曾说过 图书馆已经从书籍世界走进了信息世界 ,反映了当时社会信息化给图书馆资源管理内容与模式带来的巨大变化:从传统纸质文献管理走向以多元化信息媒介及自动化为特征的信息管理㊂20世纪90年代,随着信息技术与知识经济快速发展,图书馆从信息世界走进了知识世界,知识管理成为图书馆资源管理的新模式,数字图书馆作为一种全新的图书馆形态出现在人们的视野中,其本质上是基于网络环境下共建共享的可扩展知识网络系统㊂数字教育全球化趋势,使得企业㊁国家开始重视知识管理㊂非洲和印度等欠发达国家增长缓慢,而数字图书馆的知识共享㊁传播功能能为教育带来显著效益,因而数字图书馆的知识管理受
到越来越多的关注[
1
]㊂为了进一步满足人们精细化知识获取与利用要求,数字图书馆中的知识载体被碎化为更小的单位,即知识元,以突破现有文献层面的知识服务的局限性㊂知识元作为目前知识管理的最小单位,可以通过排列组合形式形成各种各样的知识元,不同知识单元可以根据不同的逻辑关系形成多种知识元链接,从而实现知识价值不断提升㊂目前,人们对知识的控制还停留在文献层次,使得文献内包含的知识元没有得到应有的揭示,也就得不到应有的利用㊂面对浩如烟海的互联网信息,传统信息检索所存在的弊端日渐显露,其查准率与查全率已经无法满足人们精细化信息需求㊂基于文献单元的知识组织,所
揭示的知识信息是粗糙的㊁表面的㊁不精确的,很难揭示知识内在联系,形成新的知识㊂而基于知识单元的知识组织,仍然没有细化到知识最小单位 知识元㊂基于主题图的知识组织,提供给用户的实际是一个完整的知识结构,相当于一个主题索引㊂知识元概念的出现彻底改变了人们以往停留在文献层面的信息组织的观念与做法,将传统文献拥有的信息资源进行碎化,通过建立知识元库的形式将同一主题或领域问题集成起来,使得研究者无需浏览检索全篇文献,能将更多时间和精力投入到研究中㊂同时,在同一知识库中所存储的知识形式的多样性,也丰富学习过程改善学习体验,提高人们的学习兴趣和学习能力㊂在不同知识主题㊁领域之间,大量的知识元链接形成知识链,相互交织的知识链进一步形成知识网络,有助于人们系统㊁全面㊁高效地了解某一领域的知识,激发人们的创新能力㊂相较于理论方法型知识元和数值知识元,事实型知识元研究文献更加匮乏,且中国知网已建立起理论方法型知识元库和数值型知识元库㊂故本文以知识元类别中的事实型知识元为研究对象,明确其特点并列举相关流程,梳理其识别与标引的相关文献㊂
1 相关研究
根据中国知网文献收录情况,近年来,国内知识元研究领域发文量逐年稳步上升,研究 知识元 相关问题的主要学者有温有奎㊁汪玲㊁郭德俊㊁徐国华㊁周莹㊁徐端颐等,研究内容主要分为知识元理论研究㊁知
85
识元技术研究和知识元应用研究3个方面:一是知识元理论研究包括知识元的概念㊁分类㊁特征和模型研究;二是知识元技术研究包括知识元的抽取㊁标引和链接;三是知识元应用领域包括数字图书馆领域㊁突发事件应急管理领域㊁教育领域等㊂此外,知识元还在知识科学与知识工程㊁知识挖掘与知识发现和知识管理等领域得到了一定的应用㊂
姜永常[2
]认为,应以知识元为基本单元,以知识
链接为枢纽,进行数字图书馆的知识构建,通过对数字图书馆中文献信息进行知识元抽取㊁标引㊁建立知识元库和知识仓库,从而达到提供知识服务的最终目
的;王泰森等[3
]根据高校㊁科研机构的师生㊁科研人员
及其他以学习㊁文献调研为目的的读者的知识资源全面系统整合要求,运用数据库与知识元链接理论与技术,提出一种知识元层次的学习型知识元数据库系统,从而实现按照学科㊁专业队高校图书馆数字资源
与实体资源中的知识资源整合;黄晓斌等[4]认为,知
识元的自动抽取在数字图书馆知识网络发展中具有重要作用,并对数字图书馆V I S I O N 模式㊁C N K I 模式㊁W i k i 模式3种典型的知识网络模式进行了梳理,对数字资源中知识元㊁和知识链接等要素进行了深入
分析;刘薇等[5]将知识标引应用于数字图书馆中的知
识管理,利用学科的相对独立性,对中书名㊁大标题㊁小标题㊁内容提取的知识元进行分类标引,并用从中文W i k i p e d i a 概念库中获取的语义信息进行语义链接,建立起一个数字图书馆学科标引系统㊂
国内其它关于知识元研究的代表性文献有:马费成在‘情报学的进展与深化“中表示,知识信息的表达和组织必须从物理层次的文献单元开始;陆汝钤[6]在
‘从基于知识的软件工程到基于知件的软件工程“中
指出,知识元是采用本体形式表示知识的基本单位,
大量的知识元集合成为知识工程的素材;陈雪龙等[
7
]联合发表的‘非常规突发事件应急管理的知识元模型“,给出了知识元属性间关系的隐性描述方法,为非常规突发事件的应急管理提供综合知识支持;温有奎撰写的‘知识元挖掘“和‘基于知识元的知识发现“,为知识元研究打下了坚实的基础;温有奎和温浩[8]在
‘一种创新点挖掘的知识单元标引系统“提出了一种创新点挖掘的知识单元标引模型,并用软件流程图描
述了标引创新点的过程;原小玲[9]在‘基于知识元的知识标引“中深入讨论了知识元标引的各环节,并用
系统流程图表示了知识元标引的过程;付蕾[10
]在‘知
识元标引系统的设计与实现“中描述了知识元标引系统结构以及系统实现流程,最后给出了实现方案和具体步骤㊂
知识元的应用前景广阔,相关研究也日渐增多和深入,但无论是在理论领域还是技术领域,知识元都存在着若干空白㊂例如,关于知识元类型的划分问题,仍然缺少统一划分标准,而知识元本身具有的连续性和不可分性,更加大了其类型划分难度,因而在知识元边界确定上仍然存在着主观性;在知识元应用上,目前在数字图书馆㊁应急管理等方面研究相对较多,但距离真正建立完备的知识元库还存在一定的距离;知识元库建立面临的主要问题是知识获取和存储的问题㊂如知识元提取中,还缺乏有效方法将主观知识与客观知识区分开来,导致获取的知识元中含有主观知识比率较高,降低了整体知识元库的准确性㊂这意味着对搜索引擎的智能化程度要求越来越高,需要
提高整体效率[11]
㊂总的来说,目前国内关于知识元的研究还处于成长阶段,涉及知识元抽取㊁标引等技术理论依据还不够完善[12]
㊂此外,值得注意的是,在
涉及知识元抽取和标引的研究过程中,计算机网络起着巨大的辅助与推动作用㊂因此,着力科学技术创新㊁建立更加先进的计算机平台也是推动知识元抽取与识别的有效力量㊂
2 事实知识元的概念及特点
2.1 事实知识元的概念
事实知识元的定义是建立知识元定义的基础上
的,要想了解事实知识元的定义首先要先了解知识元的定义㊂随着知识管理和知识经济研究的兴起,知识元逐渐进入研究者视野㊂国际上,知识元概念定义出现在20世纪70年代后期,由弗拉基米尔㊃斯拉麦卡提出,知识控制单位将从文献深入到其中的数据㊁公
式㊁事实㊁结论等最小的独立 知识元 (又称数据元)㊂国内最早提出知识单元(K n o w l e d g
e E l e m e n t )概念的是我国科学计量学开创者赵红州[14
],他在1984年将
其界定为能够用数学公式表示的科学概念㊂自此,知
识元研究在知识管理领域拉开序幕㊂关于知识元的
定义,朱晓芸等[15
]提出原子知识元的概念,可视为国内知识元研究的开端;孙成江等[16]认为,知识元是人
的知识结构中的基本元素,由信息元㊁经验㊁智慧和问
题解决4个方面共同复合而成;温有奎[17]提出了知识元链接理论,认为知识元是构造知识机构的基元,是可独立使用的最小单位;文庭孝[18]认为,知识元应
该是可以自由切分㊁表达㊁存取㊁组织㊁检索和利用知
识的最小的独立的知识单位;李锐㊁王泰森[19]认为,
知识元既是一个独立的学科知识单元,也是一个事物的过程或者结果;廖开际等把组成文档的一个个相对
独立的知识元素称为知识元;温有奎[20
]认为,知识元
9
5
定义由名称㊁属性㊁操作㊁导航等七要素组成㊂
关于事实知识元的定义,张静[21]
认为,事实类知
识元反映一个事实,如历史事件㊁地理现象㊁社会现象
等;廖开际[22
]根据文献段落的主题类型,将知识元分
为事实型㊁主体型和任务型,并将事实型知识元定义
为对名词性短语起解释和说明作用的㊁解决 a b o u t
w h a t
问题的知识单位;于秀慧[23
]按照内容特征不同对知识元进行细致分类,并将事实(信息报道)型知识
元的特征定义为描述时间的发生或反映一个事实,具有真实性㊁准确性或及时性等特点,时间㊁地点㊁人物
等特征性很强;原小玲[9]将事实型知识元定义为有关自然㊁社会存在和演变的事实信息;史忠植[24]所定义
的陈述性知识与部分学者对事实知识元的理解相似,认为陈述性知识是使人们了解掌握是什么的知识,包含概念和事实的知识;蒋玲认为,事实知识是指某种术语或是问题解决的基本要素,既含有术语中的知识和本质特征,又含有元素的知识㊂
综上所述,本文以原小玲对知识元的分类为基础,结合现有事实知识元的定义,将事实知识元进行描述为通常包含时间㊁地点㊁人物等要素的有关自然和社会存在及现象的信息㊂
2.2 事实知识元的特点
针对事实知识元的研究鲜见,但对知识元划分中
含有事实型这一类别研究很多,本文通过分析不同学者对事实知识元的分类,给出中事实知识元的特点㊂
含有事实型知识元这一类别的常见分类有:张静[
21
]根据中小学各学科课程教材中的知识特点,将课本中所涉及的知识元分为概念类㊁原理类㊁方法类㊁事实类
和陈述类五大类;廖开际[22]
根据文献段落的主题类型将知识元分为事实型㊁主体型和任务型;于秀慧[
23]按照内容特征不同对知识元进行细致分类,并将事实
(信息报道)型知识元的特征定义为描述时间的发生或反映一个事实,具有真实性㊁准确性或及时性等特
点,时间㊁地点㊁人物等特征性很强;原小玲[9]将知识
元按照表达内容的不同分为理论与方法型知识元㊁事
实型知识元及数值型知识元;史忠植[24
]将知识分为3
种类型:陈述性知识㊁过程性知识和控制性知识㊂根据以上分类及研究,本文对事实知识元的特点进行总结:
(1
)事实知识元具有独立性㊂事实在不同领域的涵义是不同的㊂在新闻领域,事实是指存在现实生活中的事物或发生在现实世界中的事件,如社会政治事件,自然界现象等㊂在认识论范畴,事实是指客观事物㊁事件或现象本身,也是指对以上3种的反映和描述㊂但无论如何,事实知识元属于知识元的一种,能够独立表达一个完整的事实㊂
(2
)事实知识元具有拓扑性㊂每个事实知识元都具有完整的结构,由知识元名称㊁描述及关系组成㊂(3
)事实知识元具有链接性㊂由于知识元在表达上具有独立性和完整性,事实知识元之间可通过不同
组合方式产生新的知识,推动知识创新,有效提升现有信息资源价值㊂
(4
)事实知识元具有外显型㊂人们可以通过口头㊁书籍㊁媒体等方式进行事实知识元获取与传播㊂(5
)事实知识元的易存储性㊂一个完整的事实知识元所包含的基本要素相同,因此很容易建立起数据存储结构,实现其快速存取㊂
3 事实知识元识别与提取
近年来,关于知识元抽取的研究慢慢兴起,现有
关于知识提取的研究有:周宁等[25]
就知识元表示与
抽取正确与否的问题,提出了一种以X M L 平台为基础的知识元表示与抽取模型,对文档进行分段读取后,从中搜寻具有知识特征的基本知识元,以结构㊁长
度和内容为3个维度为标准,通过约束这3个维度表示知识元,并通过解析这3个维度抽取知识元;毛永
吉等[26]对科技文献的句子类型进行划分,设计了
S E L D 语言和基于S E L D 语言的知识获取系统的
S E L K A S ,用S E L D 语言改写科技文献后,可用S E L -K A S 系统实现自动编译㊁
知识抽取和整理,从而形成领域知识库;朱丽萍[27]
以句子级别为基础,将文本按照背景知识㊁问题分析㊁工作描述进行划分㊂统计总结出引导词㊁线索词㊁等特征,建立起规则库,利用规
则进行结构化抽取信息;苏牧等[28]依据自然语言的
群集现象,结合知识体系信息更新的动态要求,提出了一种基于语句聚类识别的知识动态提取方法,并以机械C A D 为基本背景,
利用实例进行了该方法的有效性证明㊂关于知识元的抽取,温有奎等[8
]针对提高
论文创新知识的掘与利用程度问题,以对科技论文为实体对象,提出以创新点为基础构建知识元,通过探讨文献所涉及的知识创新生产㊁知识增值管理㊁知识集成利用,梳理文本创新点的表现形式,证明了这种基于创新点的知识元挖掘方法的有效性㊂
3.1 事实知识元的描述规则
依据C S S C I 核心期刊排名情况,
选取若干情报学核心期刊,并从万方㊁维普㊁中国知网等数据库下载题录信息,对题录信息进行整合去重等处理后,整理出一份关键词表,然后从该表中获取事实描述术语,构建其术语表㊂根据该描述术语表对情报学某核心杂志某年的全文进行识别,得出所有关于事实描述的
06
句子,对识别出的句子进行规则提取和构建,以流程图的形式对事实知识元描述规则构建过程进行描述
(见图1
)
㊂图1 事实知识元描述规则构建流程
描述规则构建,首先对选取的文章进行文本读取,运用构建术语表进行识别,获取其中含有事实的句子,利用分词技术将这些句子进行分词,最后用关键词表去掉不含领域主题词的句子,得到关于事实知识元的句子结构㊂将得到的句式结构进行人工审核和校对,筛选出关于事实知识元的句式结构,将这些结构进行分类汇总,得出事实知识元描述规则㊂依据上述提取流程进行事实知识元的描述规则提取,得到常见的事实知识元描述规则有:
年, 在 , 创立/建立/创建 ㊁ 世纪 年代, 在 提出/证明/证实 ㊁ 在/当 时
(时间)
, 于 , 发明/发现/出现/产生/进行 ㊁ 也就是 等㊂其中,关于事件类事实知识元描述规则中,经常出现的元素有事件发生的时间㊁地点㊁发生主体等信息㊂
3.2 事实知识元的抽取
实现知识元识别与标引的首要步骤是从中提取
知识元㊂值得注意的是,本文研究范围是数字图书馆中的数字资源,因此,除传统文献数据库中的知识资源外,还需关注专利数据㊁行业标准㊁科技报告等特色资源库中的知识资源㊂明确研究所涉及的知识资源范围和性质是实现知识元准确识别与标引的基础㊂将实体资源的知识本文统一为文本形式的知识资源中知识元识别与标引,不涉及非文本形式实体资源的知识资源向文本转化过程研究(见图2
)㊂知识元提取第一步,对实体资源进行预处理,即
删减资源中与主题无关的信息,减少数据量,减轻后续数据组织处理的工作量,提高整体效率㊂在此过程
中,应考虑实体资源存在形式,若为非文本形式,如图像㊁音频㊁视频等,应转化为文本形式再进行文本信息读取及后续处理;若实体资源本身为文本形式,即可直接进行文本信息进行分段读取,搜寻文本段落中存在的知识特征㊂依据前文中不同知识元的描述规则,依据相应类型的知识元结构,对符合知识特征的文本段落抽取知识元㊂最后,将抽取的知识元按不同类型存储在数据库中,一次知识元抽取工作完成㊂重复以上步骤,直至实体资源中所有文本段落均完成抽取工作

图2 知识元抽取流程
4 结语
以知识元为信息组织单位的研究日渐增多和深入,但在理论㊁技术领域,知识元研究还有很大的上升空间㊂目前,关于知识元的研究很多,但真正涉及其抽取及标引的研究鲜见㊂本文以事实知识元为研究对象,给出了事实知识元的定义,基于事件类知识元的特征对事实知识元描述规则和结构进行归纳总结,并进行了检索测试实验㊂总体而言,本文主要成果可分为以下几个方面:
(1
)提出事实知识元的概念㊂本文通过对知识元相关理论的梳理,对知识元概念及其特点和分类有了深入了解㊂在此基础上,本文综合各领域对事实的定义,结合自身的理解,认为事实知识元描述的是某个实体的演化过程㊁最终状态㊁涉及领域以及与其他实体之间的关系,并据此给出事实知识元的概念㊂
(2
)建立事实知识元描述模型㊂知识元模型是知识标引的基础,参考现有关研究,指出现有研究的不足,从标识㊁描述及关系3个方面对事实知识元的实体结构进行描述,并将改模型应用于后续检索系统的数据库设计中㊂
(3
)提出基于规则的知识元标引方法㊂知识元抽取模块是知识元标引系统的重要组成部分,本文采用流程图的形式介绍了知识元描述规则形成及知识元抽取的整体流程㊂
在事实知识元描述架构方面,其描述组及关系组还可进行进一步细分,如关系组可增加该事实知识元
1
6
与其它类似知识元之间的联系㊂关于事实知识元的提取规则还需进一步改进㊂本文主要借鉴温有奎对知识元结构的定义,根据事实知识元通常包含事件时间㊁地点㊁主体等要素的特点,对事实知识元结构进行定义㊂但在实际提取过程中,由于中文语义丰富的特点,许多词语如 科技研究所 ,既可以作为时间发起的主体,又可以作为事件发生的场所,这就为知识元属性特征识别带来了一定的难度㊂随着不断学习和探索,关于事实知识元还存在许多值得深入研究的问题㊂
参考文献:
[1] S H E M M.D i g i t a l l i b r a r y e d u c a t i o n :g
l o b a l t r e n d s a n d i s s u e s [J ].J o u r n a l o f E d u c a t i o n &P r a c t i c e ,2015(6).[2] 姜永常.论数字图书馆的知识构建[J ].现代图书情报
技术,2005,21(6):10-13.
[3] 王泰森,刘新.学习型知识元数据库的系统构成方案[J ].图书馆学研究,2009(9):20-24.
[4] 黄晓斌,夏明春.数字图书馆知识网络的结构与模式
[J ].国家图书馆学刊,2010(2):38-42.
[5] 刘薇,刘柏嵩,王洋洋.基于知识元的数字图书馆学科
标引研究[J ].宁波大学学报(理工版),2013(1):100-
103.
[6] 陆汝钤.从基于知识的软件工程到基于知件的软件工程[J ].中国科学技术科学,2008,38(6):843-863.
[7] 陈雪龙,
肖文辉.面向非常规突发事件演化分析的知识元网络模型及其应用[J ].情报杂志,2011.30(12):22-
26.
[8] 温有奎,温浩,徐端颐,潘龙法.基于知识元的文本知识标引[J ].情报学报.2006(3):19-23.
[9] 原小玲.基于知识元的知识标引[J ].图书馆学研究,2007(6):47-49.
[10] 付蕾.知识元标引系统的设计与实现[D ].武汉:华中师范大学,2009.
[11] 单从凯.论数字化学习资源中的知识元[J ].中国远程
教育,2015(11):30-33.
[12] 高国伟,王亚杰,李永先.我国知识元研究综述[J ].情
报科学,2016,34(2):161-165.
[13] D E Y P P ,AM I N M N ,I N O U Y E J ,e t a l .K n o w l e d g
e a b s t r a c t i o n l e v e l s [C ].W s e a s I n t e r n a t i o n a l C o n
f e r e n c e
o n A u t o m a t i o n &I n f o r m a t i o n ,2005:293-296.
[14] 赵红州,蒋国华.知识单元与指数规律[J ].科学学与
科学技术管理,1984(9):39-41.
[15] 朱晓芸,
陈奇,杨枨,等.决策支持系统中的广义知识元及模型库[C ].中国控制与决策学术年会论文集,
1993.
[16] 孙成江,
吴正荆.知识㊁知识管理与网络信息知识服务[J ].情报资料,2002(4):10-12.[17] 温有奎,
徐国华.知识元链接理论[J ].情报学报,2003(6).
[18] 文庭孝.论数字图书馆建设中数字化信息资源知识产权保护问题[J ].高校图书馆工作,2003,23(4):54-56.[19] 廖开际,熊会会,叶东海.基于知识元理论的应急文档结构化建模[J ].计算机应用研究,2011(1):180-183.
[20] 温有奎,焦玉英.知识元语义链接模型研究[J ].图书情
报工作,2010,54(12):2731.
[21] 张静,
刘延申,卫金磊.论中小学多媒体知识元库的建设[J ].现代教育技术,2005(5):68-71.
[22] 廖开际,熊会会,叶东海.基于知识元理论的应急文档结构化建模[J ].计算机应用研究,2011(1):180-183.[23] 于秀慧,李宝山.基于知识元的知识管理[J ].山东图
书馆学刊,2013(1):10-13.
[24] 史忠植.知识发现[M ].北京:清华大学出版社.2002.
[25] 周宁,余肖生,刘玮,
等.基于X M L 平台的知识元表示与抽取研究[J ].中国图书馆学报,2006,32(3):41-
45.
[26] 毛文吉,陆汝钤.基于S E L D 描述语言的英文科技文本
知识自动获取[J ].计算机学报,1998,21(s 1):105-
111.
[27] 朱丽萍,李洪奇,杨中国,
等.一种面向科技文献引言的信息抽取方法[J ].山东大学学报理学版,2015,50
(7):23-30.
[28] 苏牧,肖人彬.基于语句聚类识别的知识动态提取方法研究.[J ]计算机学报,2001,24(5):487-495.
[29] 蒋玲.面向学科的知识元标引关键技术研究[D ].武
汉:华中师范大学,2011.[30] 温有奎.知识元挖掘[M ].西安:
西安电子科技大学出版社,2005.
[31] M E L G A R E S T R A D A L M.T o p i c m a p
s f r o m a k n o w l -e d g e o r g a n i z a t i o n p e r s p e c t i v e [J ].K n o w l e d g e O r g
a n i z a -t i o n ,2011,38(1):43-61.
[32] 夏立新,金燕,方志.信息检索原理与技术[M ].
北京:科学出版社,2009.
[33] L I X M ,WA N G Y Y.D e s i g n a n d i m p
l e m e n t a t i o n o f a n i n d e x i n g m
e t h o d b a s e d o n
f i e l d s f o r e l a s t i c s e a r c h [C ].F i f t h I n t e r n a t i o n a l C o n f e r e n c e o n I n s t r u m e n t a t i o n
a n d M e a s u r e m e n t ,2016.
(责任编辑:要 毅)
26。

相关文档
最新文档