专业出版领域知识服务系统设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专业出版领域知识服务系统设计
摘要:基于开放域的知识服务系统已较为成熟,但是对于传统出版领域,尤其是专业出版领域而言,它还是一个非常新鲜的技术。在分析行业现状及需求的基础上,设计专业出版领域知识服务系统,构建专业领域知识体系,对专业出版领域的资源进行知识化加工及标引,形成知识库,并基于知识库提供面向不同用户的个性化定制服务。
关键词:专业出版;知识服务;知识标引;知识库构建;语义检索
DOIDOI:10.11907/rjdk.161078
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2016)005-0062-04
0 引言
20世纪80年代,信息服务产生并在世界范围内广泛普及,成为社会信息化的重要标志之一。随着信息技术打破摩尔定律继续以超高速迅猛发展,信息给人们的科研和决策也带来了诸多麻烦。信息元作为信息传播的最小单位,可以不断地连接、组合形成新的结构。信息元的这种无穷组合能力促使新信息不断产生,导致信息爆炸,形成信息烟雾。在众多信息和数据库面前,科研工作者和决策者却感到获取有用
信息变得更加困难。为了让人们从“信息超载”和“知识饥渴”的困境中走出来,在知识密集型服务行业中出现了一个新的服务领域――知识服务。知识服务从各种显性和隐性知识资源中按照人们的需要有针对性地提炼知识,是一种用来解决用户问题的高级阶段的信息服务过程,它是一种面向知识内容和解决方案的服务。
区别于传统的信息服务,知识服务是用户目标驱动的服务,面向知识内容的服务,它非常重视用户需求分析,根据问题和问题环境确定用户需求,通过信息的析取和重组来形成符合需要的知识产品,并能够对知识产品的质量进行评价。此外,知识服务是面向解决方案的服务,它关心并致力于帮助用户找到或形成解决方案。同时,知识服务是为用户解决问题工程的过程性服务,帮助用户进行知识的捕获、分析、重组及应用,根据用户需求来动态和连续地组织服务。
1 行业现状与需求
在当前语境下,专业知识服务[1]工作的开展,无论是对出版企业还是技术提供方都提出了较高要求,尤其是在专业知识领域[2],具体要求主要体现在如下几个方面:一是对资源的要求,区别于无体系、无规范及无专业保证的互联网资源,出版社具备专业的编辑团队及知识来源,是开展知识服务的最佳基础;二是对技术的要求,只有依托于先进的技术手段及产品设计理念,才能实现合理的知识呈现、提供良好
的解决方案;三是对知识服务的理解程度,在知识服务开展过程中,知识服务提供方要结合自身的资源优势及用户特点,基于对知识服务内涵及外延的了解,建立行业及专业的知识谱系及服务模型[3]。
近年来,国外学界对知识服务概念及范围的研究甚嚣尘上,与知识服务概念研究热潮形成鲜明对比的是知识服务实践开展却相对滞后,能真正系统开展知识服务的机构很少。但是,众多数字出版企业并没有停下前进的脚步,国内外众多出版机构都开展了在该领域的探索,并在探索的基础之上依托多元化的产品形态及运营模式,为用户提供基于知识的服务,为我国出版界开展知识服务建设提供了宝贵经验[2]。
本课题的主要研究目标是提供一套可行的解决方案,满足专业出版领域的知识体系构建、知识加工及标引、知识库构建以及对外提供知识服务的需求。
2 系统架构设计
2.1 系统总体架构
系统总体架构如图1所示。
2.2 资源采集及管理
专业出版领域的资源是专业出版社最核心的资产,将这些资源进行数字化、结构化及知识化,结合构建的知识体系形成知识库,再对外提供知识服务[3],这是本解决方案要实现的目标,也是整体框架设计的依据。
存量资源以图书、期刊等出版物为主,这些资源由于出版时期不同,其存储介质也不尽相同。早期出版物以纸质为主,到了20世纪80~90年代,出现了排版软件,例如方正书版、InDesign等,这时资源存储的介质已经数字化,基本上以方正书版文件、PDF、WORD等形式出现。
对于存量的纸质图书,可以通过扫描、OCR识别形成PDF 文件实现其数字化。但是数字化只是第一步,想要获取到知识,还必须将资源进行结构化,本方案中结构化的数据采用XML来描述,XML的标准以国际通用标准配以国内标准的扩展。例如,国际通用的DOCBOOK5.0标准,并扩展中文图书特有的一些属性,从而形成本方案的图书结构化标准。
WORD结构化加工工具是基于微软Office提供的API接口开发的基于WORD的插件,安装后直接在WORD面板中出现一个新的面板,其提供的功能可以对WORD文本进行自动化及人工加工。对于方正书版文件,采用方正经典可以直接导出DOCBOOK标准的结构化资源包;对于PDF,可以通过集成业内成熟的数字加工技术来实现结构化。结构化的数据需要存储管理起来,对外提供浏览、下载、导出等服务,也可以参与重新加工的业务流程,这也是目前专业出版社内资源管理系统的常见功能。
2.3 知识体系构建
专业领域知识体系是知识的框架,它有效揭示了知识的
内在关联和组织方式。领域知识体系是知识资源构建的基础,是知识组织的核心框架,它将知识和资源通过各种方式关联在一起,形成庞大的知识网络,通过知识体系的作用实现领域内容基于知识主体的内在连接、关联和关系推理,从而为使用对象提供精准的知识服务及知识延伸服务。
知识体系构建[4]是一项基础性工作,对资源进行知识提取之前,知识体系就必须先建立起来。本系统中知识体系包含3种,包括多维度主题分类、领域主题词表以及领域本体。多维度主题分类目前已得到广泛应用,多个领域内也都有了比较成熟的分类体系。领域主题词表是目前知识服务应用的主要知识体系,也是目前出版单位正在或者准备构建的知识体系,由于词表中的词数量众多庞大,因而需要花费相当的人力物力来进行此项构建工作。领域本体在目前国内出版单位涉及得非常少,它是最复杂的一种知识体系,相比主题词表,它需要构建者对领域内的知识有更充分的理解,并且所需要构建的内容也更为多样。从分类体系到主题词
表再到领域本体,可以采取循序渐进的方式进行构建,主题词表可以基于资源管理系统的分类体系、关键词、概念等内容进行构建,而领域本体则可以基于主题词表,将其关系扩展后得到。领域本体通过提取领域内的抽象实体以及实体之间的关系而形成,可以构建丰富的概念间的语义关系,其形成的知识图谱[4]是计算机智能技术最主要分支之一,这也是