_中国档案主题词表_语义网络化应用研究
从网络信息组织看《中国分类主题词表》

以从 分 类角 度和 主题 角度 表达文 献信 息 的内 容 并加 以标识 , 得文献 信 息具 有可组 织 、 使 可 检 索的依 据 , 沟 通 标 引 者与 检 索 者 的 语 言 是
桥梁。
理论 、 法 、 方 工艺 等 ; 索引 擎的 信息分 类 , 搜 知
识 面广但 科 学 技术 领 域 明显 不 足 , 识 的 关 知 联 性较 好但 组织 的逻辑 性和 严密性 较 差 。
一
《 国分类 主题 词表 》 中 第二 版及 其 电子版 已于 20 0 5年 完成修 订 并 出版 。实 际上 , 管 不 是分类 法还 是 主 题 词 表 , 一 次修 订 都 是 一 每
项 重要 的 系统 工 程 和 研 究项 目。理 论 研 究 、
体化 检索 语 言 , 因为 它 不如 分 面 叙 词 表 在 中却显 示 了 巨大 的生命 力 ( 我 国 同期 研 制 而
京 : 京 图 书馆 出 版 社 ,0 5 北 2 0
3 ht /www . l g v.n frisz o gua zc hm tp:/ nc.o c /olb /h n tf/tb. t
8 薛春香 , 侯汉 清 . 于 自 动 分 类 的 《 图 法 》 用 中 知
识 库 的构 建 . 中国 图 书 馆 学 报 ,0 5 5 20 ( )
有 其新 的功 能 。
既有知 识 的整理 , 也有 知识 的生 产和 创新 ( 如 发 现新 的知 识关 联 ) 。
e 右 二 茄 茄 石 石 二 石 石 茄 茄 石 石 \ ; 、 盎 石
首先 , 当然是一 种 检索语 言 , 分类 法 它 是
七 名 二 茄 七 二 ;
5 侯 汉 清 , 张 华 . 题 法 导 论 . 京 : 京 大 学 马 主 北 北
《中国分类主题词表》(第二版)电子版在文献标引中的应用

西药制药法对植物药进行分离和提纯 , 药物一 从“ 提纯” “ , 中药一提纯” 人手检索都是可能的。 以 所 两个概念均标引 , 增加 检索点 。“ 紫杉醇” “ 、 药理 作用靶点法” 必须作为 自由词标引。从内容上分析
ቤተ መጻሕፍቲ ባይዱ
[ 1: 例 ]现代生物技术在环境工程 中的应用/ 该文献 属 于 制 药 工 艺 中 的 “ 工 ” 分 类 号 是 加 , T 406 。由于紫杉醇是从植物中提炼出来的, Q 6.2 还 按分类规则应 当归入被应用的学科领域。在 应当在“ Q 6 中草药制剂 的生产” “ 24 2 中 T 41 、 R8. ( 类 目 中查到;x环境科学” X 环境污染及其 药 ) 树 “ 一“ 5 有效成分的分离与提取” 类下作互见。 , 防治” 该文献即归入此类。还应当为“ 生物技术” [ 3: 例 j突破官僚制政府 管理 的新愿景( 政府
词还不足以描述文献主题 , 再从其他角度查 找合适 的主题词进行标引。
11 壹找 分 类号 .
1 11 浏览类 目树查找 ..
当能判断出某主题的大概类属 , 但不清楚具体 的位置或不能肯定是否有恰切的类 目时 , 通常采用 题词表达的, 因此 , 通过 主题词查找分类号就成了 在某类进行层层浏览 , 在测览中不断分析判断哪个 个十分快捷、 重要的途径, 这是分类主题一体化
含该概念的类 目都会显示在检索结果栏 , 然后分别 选择相关的类 目进行 比较 , 确定最合适 的类 目。比
如你想查找“ 格论” 所在 的类 目, 在检索栏输入“ 格
论” 系统就会显示检索结果 “ l3 1 , O . 偏序集合与 5
格 论 ” 。
l 从分类标引入手的一体化标引 从分类标引入手的一体化标引 , 基本步骤是先 确定文献信息主要类号 、 次要类号; 其次在分类号 所对应的主题词 中选择 与该主题直接相关的主题 词( 标题) 进行 主题标引 ; 如果分类 号对应 的主题
利用《中国分类主题词表》电子版标引文献的技巧

利用《中国分类主题词表》电子版标引文献的技巧黄星亮【摘要】介绍了<中国分类主题词表>电子版的分类主题一体化标引功能、查类选词的实用技巧,指出<中分表>电子版存在的一些问题及不足,以期对标引工作提供一定参考.【期刊名称】《图书馆学刊》【年(卷),期】2009(031)008【总页数】3页(P83-84,103)【关键词】《中国分类主题词表》;文献标引;技巧【作者】黄星亮【作者单位】华南理工大学图书馆,广东,广州,510640【正文语种】中文【中图分类】教科文艺图书馆学刊 2009 年第 8 期TUSHUGUANXUEKAN N0.8,2009利用《中国分粪蚕题词襄》电子版标弓7文献的技巧黄星亮 (华南理工大学图书馆,广东广州 510640)【摘要】介绍了《中国分类主题词表》电子版的分类主题一体化标引功能、查类选词的实用技巧,指出《中分表》电子版存在的一些问题及不足,以期对标引工作提供一定参考。
【关键词】《中国分类主题词表》文献标引技巧【分类号】 G254.36 《中国分类主题词表》(以下简称《中分表》)是我国文献、图书、信息部门以及综合性网络检索系统进行文献知识信息组织整序与检索的最权威工具,同时也是我国第一部和唯一的一部既能满足文献主题标引、检索,又能满足分类标引、检索的大型、综合性分类检索语言与主题检索语言兼容的文献标引检索工具。
《中分表》电子版 2005 年 9 月已由北京图书馆出版社正式出版发行,收录《中图法》类目53000 余个,主题词及主题词串 20 万余条,内容包括哲学、社会科学和自然科学各个领域的学科和主题概念,它既可用于手工检索系统,又可用于计算机检索系统。
《中分表》电子版将广大标引人员从厚厚的纸版词表中解放出来,大大提高了标引的工作效率和质量。
笔者结合利用《中分表》电子版进行分类主题一体化标引的实践,就使用技巧以及电子版存在的不足谈几点粗浅的认识。
1 《中国分类主题词表》电子版基本结构 1.1 窗体结构《中分表》电子版打开时一般由 4 个子窗口组成:分类表、主题表、词族表和结果栏。
中国档案主题词表

中国档案主题词表一、引言档案是一国的珍贵文化遗产,它记录着国家的历史、文化和社会经济发展的方方面面。
为了更好地管理和利用档案资料,中国国家档案局制定了中国档案主题词表。
该词表是对档案资料内容进行分类和标引的基本工具,对于档案管理和研究具有重要意义。
本文将介绍中国档案主题词表的特点、组成和使用方法,并列举一些常用的主题词和其对应的含义,以供读者参考。
二、中国档案主题词表的特点1. 系统性中国档案主题词表是一个完整的分类和标引系统,它对档案资料进行了细致入微的分类,涵盖了政治、经济、文化、社会等各个方面的内容。
词表中的每个主题词都经过精心设计和组织,使其能够准确描述档案资料的内容。
2. 统一标准中国档案主题词表采用统一的标准进行编制,以保证词表的一致性和可操作性。
标准包括主题词的范围、名称、编码规则等,确保人们在使用词表时不会出现混淆和错误。
3. 可扩展性中国档案主题词表是一个动态的工具,随着档案业务的发展和变化,词表会根据实际需要不断更新和完善。
新的主题词可以根据需求进行添加,旧的主题词也可以根据实际情况进行修改或删除,以适应不同时间和领域的档案需求。
三、中国档案主题词表的组成中国档案主题词表由多个篇章组成,每个篇章包含一组相关的主题词。
根据档案的性质和内容不同,词表可以根据需要进行组合和使用。
以下是中国档案主题词表中的一些常用篇章和主题词:1. 政治•国家•党政机构•政策法规•政党2. 经济•经济体制•行业经济•经济发展•财税3. 文化•文化艺术•文化教育•文化遗产•文物保护4. 社会•社会组织•社会服务•社会调查•社会保障5. 地区•北京•上海•广东•四川四、中国档案主题词表的使用方法在使用中国档案主题词表时,可以根据档案的具体情况进行选择和组合。
首先,根据档案的主题内容确定所属的篇章,然后在该篇章中选择相应的主题词进行标引。
如果档案的内容涉及多个方面,可以同时选择多个篇章和主题词进行标引,以更全面地描述档案资料的内容。
中国档案主题词表1500字

中国档案主题词表1500字1. 中华人民共和国历史2. 中国古代文化3. 中国传统医学4. 中国古代艺术5. 中国古代哲学6. 中国古代宗教7. 中国古代政治8. 中国古代军事9. 中国古代经济10. 中国古代科技11. 中国古代农业12. 中国古代服饰13. 中国古代食品14. 中国古代建筑15. 中国古代书法16. 中国古代音乐17. 中国古代舞蹈18. 中国古代戏曲19. 中国古代文学20. 中国现代史21. 中国现代文化22. 中国现代医学23. 中国现代艺术24. 中国现代哲学25. 中国现代宗教26. 中国现代政治27. 中国现代军事28. 中国现代经济29. 中国现代科技30. 中国现代农业31. 中国现代服饰32. 中国现代食品33. 中国现代建筑34. 中国现代音乐35. 中国现代舞蹈36. 中国现代戏曲37. 中国现代文学38. 中国革命史39. 中国共产党历史40. 中国人民解放军历史41. 中国国共合作历史42. 中国抗日战争43. 中国内战历史44. 中国社会主义建设45. 中国改革开放46. 中国对外关系48. 中国城市建设49. 中国教育发展50. 中国科学技术发展51. 中国环境保护52. 中国法律体系53. 中国经济改革54. 中国金融体系55. 中国社会福利56. 中国文化遗产57. 中国民族关系58. 中国少数民族文化59. 中国青年发展60. 中国妇女发展61. 中国老年人发展62. 中国残疾人发展63. 中国流行文化64. 中国娱乐产业65. 中国旅游业66. 中国体育发展67. 中国农业发展68. 中国工业发展69. 中国交通发展70. 中国能源发展72. 中国金融市场73. 中国房地产市场74. 中国外贸发展75. 中国股市发展76. 中国银行业发展77. 中国保险业发展78. 中国证券业发展79. 中国互联网发展80. 中国电信业发展81. 中国电子商务82. 中国高科技产业83. 中国汽车工业84. 中国航空航天工业85. 中国石油工业86. 中国化工工业87. 中国钢铁工业88. 中国煤炭工业89. 中国农产品加工业90. 中国建筑工业91. 中国纺织工业92. 中国家电产业93. 中国医疗保健产业94. 中国旅游业发展96. 中国电影工业97. 中国文化产业发展98. 中国音乐产业发展99. 中国出版产业发展100. 中国体育产业发展101. 中国金融机构102. 中国能源企业103. 中国制造企业104. 中国建筑企业105. 中国通信企业106. 中国互联网企业107. 中国电子企业108. 中国汽车企业109. 中国航空航天企业110. 中国石油企业111. 中国化工企业112. 中国钢铁企业113. 中国煤炭企业114. 中国农产品加工企业115. 中国建筑企业116. 中国纺织企业117. 中国家电企业118. 中国医疗保健企业120. 中国餐饮企业121. 中国电影企业122. 中国文化企业123. 中国音乐企业124. 中国出版企业125. 中国体育企业126. 中国国企改革127. 中国民企发展128. 中国合资企业129. 中国独资企业130. 中国上市企业131. 中国创业企业132. 中国小微企业133. 中国非营利组织134. 中国社会组织135. 中国慈善事业136. 中国公益事业137. 中国教育机构138. 中国科研机构139. 中国医疗机构140. 中国旅游机构141. 中国金融机构142. 中国文化机构143. 中国社交媒体144. 中国传媒机构145. 中国政府机构146. 中国地方政府147. 中国公安机构148. 中国军事机构149. 中国法院机构150. 中国监狱机构。
《中国分类主题词表》 (第二版)电子版在文献标引中的使用价值及修改意见

《中国分类主题词表》 (第二版)电子版在文献标引中的使用
价值及修改意见
刘英杰
【期刊名称】《农业图书情报学刊》
【年(卷),期】2008(020)005
【摘要】详细分析了<中国分类主题词表> (第二版)电子版在提高文献标引工作效率和质量方面的使用价值,并提出了其不足之处及修改意见.
【总页数】3页(P51-53)
【作者】刘英杰
【作者单位】辽宁省图书馆,沈阳,110015
【正文语种】中文
【中图分类】G254.36
【相关文献】
1.《中国分类主题词表》电子版文献标引分析 [J], 朱芊
2.《中国分类主题词表》(第二版)电子版在文献标引中的应用 [J], 蒋歆
3.文献标引工作也需要与时俱进——关于《中国分类主题词表》电子版使用中的几点思考 [J], 宋芸芳
4.文献标引中的信息不对称问题及对策分析——以《中国分类主题词表(第二版)》电子版应用实践为例 [J], 宋芸芳;樊京君;刘三陵
5.《中国分类主题词表》(第二版)电子版在文献标引中的应用 [J], 蒋歆
因版权原因,仅展示原文概要,查看原文内容请购买。
最新-《中国分类主题词表》WEB数据库建设 精品

《中国分类主题词表》WEB数据库建设【内容提要】本文介绍了《中国分类主题词表》数据库采用微软公司与2000的集成技术开发研制,论述了《中国分类主题词表》数据库建设的必要性,选用的软件、建库的重点及检索的途径。
【摘要题】信息化与网络化建设【关键词】中国分类主题词表数据库&1994年正式出版发行的《中国分类主题词表》以下简称《词表》是在《中国图书馆图书分类法》第3版含《中国图书资料法》第3版和《汉语主题词表》基础上编制的大型分类法,是一部集分类、主题为一体的综合性工具书。
它从内容到形式、从结构到语义等方面,实现了分类语言与主题语言、先组语言与后组语言的相互兼容。
该表实现了经一次主题分析,通过标引数据的转换,同时完成分类标引和主题标引,因而降低了标引难度,提高了标引质量,节省了人力和物力;便于分类检索和主题检索以及有分类号、主题词和自然语言三者组成的混合检索,实现了分类检索和主题检索的互补,提高了检全率和检准率。
技术可以简便易行地实现构建数据库的查询程序,它集简单与高效于一身,可以非常直观地开发出复杂的应用,基于开发的《中国分类主题词表》数据库具有良好的交互式使用方式,将有助于它在中国各类图书馆、文献情报机构中普及使用,大大地提高图书分类的准确度与效率,对我国图书情报机构文献管理和图书情报服务的现代化具有深远意义。
1《中国分类主题词表》电子化的必要性我国分类主题一体化的发展趋势在很大程度上取决于《词表》的出版和使用。
由于《词表》的广泛使用,推广了主题工作、提高了主题标引的质量,为文献标引工作提供了权威的标引依据。
但是,随着科学技术的发展与社会的进步,面对先进的网络技术、计算机技术在图书馆广泛应用的前景,标引人员不仅要求《词表》能满足新学科、新技术、新主题文献标引的动态需要,还呼唤能实现各种文献信息的自动标引或智能标引,满足各种用户包括读者在内的文献信息检索需要,实现自动检索或智能检索。
实现自动标引的基础是用于标引的词表库。
浅谈《中国分类主题词表》(第二版)及电子版使用中的一些具体问题

浅谈《中国分类主题词表》(第二版)及电子版使用中的一些具体问题张洪茹【摘要】本文结合工作实践,对<中国分类主题词表>第二版及电子版使用中一些新增主题词、删除和修订主题词使用中的具体问题进行了分析、探讨.【期刊名称】《山东图书馆学刊》【年(卷),期】2010(000)006【总页数】3页(P97-99)【关键词】中国分类主题词表;增词表;主题标引【作者】张洪茹【作者单位】天津图书馆,天津,300191【正文语种】中文【中图分类】G254.0《中国分类主题词表》(第二版)及电子版已于2005年9月由北京图书馆出版社出版了,为适应当前新学科、新技术、新事物文献标引的需要,《中国分类主题词表》(第二版)及电子版的选词以《汉语主题词表》为基础,参照国内各种专业词表作了大量的增补、删除和修订[1],本文拟和广大图书馆同仁谈一谈自己在《中国分类主题词表》(第二版)及电子版使用中遇到的一些具体问题。
1 《中国分类主题词表》(第二版)(以下简称《中分表》二版)及电子版新增主题词《中国分类主题词表》(1994年版)(以下简称《中分表》初版)正式主题词为101376条,《中分表》二版及其电子版为适应新学科、新技术、新事物文献标引的需要,修订后主题词增至110837条,新增主题词为21607条,新增主题词主要集中在F、TS、G、P、TE、TN、S、R、Q、O 等类,增词幅度最高的类是 TE 类、F类、TN类、G 类等[2],本文要讨论的这些增词是自己在工作中经常遇到的,这些新增主题词除了新学科、新主题、新概念外,还有一些主题词是同一概念的不同形式或两个以上主题词的先组形式,它们除了有充足的文献做保障外,有的更具鲜活的生命力、有的更具稳定性、有的更具专指性、有的更具实用性,且词形简练、概念明确,提高了文献主题内容标示的专指度,给广大标引人员减轻了工作负担,提高了工作效率,同时也提高了主题标引的质量。
首先谈一谈F类里的增词,例如:978-7-302-18684-7此书正题名是:供应链管理,这是一本高等学校的教材,在《中分表》二版未出之前,这种书正确的主题标引为:6060#@a企业管理@x供销管理@x高等学校@j教材;《中分表》二版里增了“供应链管理”一词,所以现在正确的主题标引为:6060#@a供应链管理@x高等学校@j教材。
评《中国档案主题词表》

评《中国档案主题词表》
伊爱华
【期刊名称】《图书情报知识》
【年(卷),期】1993(000)002
【总页数】4页(P57-60)
【作者】伊爱华
【作者单位】无
【正文语种】中文
【中图分类】G272.5
【相关文献】
1.试析《中国档案主题词表》未能广泛推广使用的客观原因 [J], 李春雷
2.继承与创新——《中国档案主题词表》与《汉语主题词表》之比较 [J], 李小岗
3.基于简约知识组织系统的主题词表语义网络化研究——以《中国档案主题词表》为例 [J], 段荣婷
4.对《中国档案主题词表》未能广泛使用的几点思考 [J], 李琼
5.对《中国档案主题词表》未能广泛使用的几点思考 [J], 陈正娇
因版权原因,仅展示原文概要,查看原文内容请购买。
中国档案主题词表

1 定义本标准采用下列定义1. 1 档案国家机构、社会组织和个人在社会活动中直接形成的有价值的各种历史文献。
[DA/T1中1. 1]1. 2 档案主题档案具体记述的对象或问题。
1. 3 主题词又称叙词(即正式主题词)。
标引与检索档案时,主题词表中规定用于表达档案主题的词语。
1. 4 非正式主题词又称非叙词。
是正式主题词的同义词或准同义词,主题词表中收录但规定不能作档案标识,只起指引作用的词语。
1. 5 档案主题词表由反映档案内容的主题词及其词间关系组成的规范化词典,是将档案、标引人员或用户的自然语言转换成规范化语言的一种术语控制工具。
1. 6 主题标引对档案给予主题词标识的过程。
[DA/T1中5. 6. 2]1. 7 主题标引深度指赋予一个标引对象主题词数量的多少。
2.主题分析主题分析是主题标引的基础,通过对档案的内容特征进行分析,准确提炼和选定主题概念。
2.1 审读档案通过审读档案,了解和判断档案所反映的中心内容和其它主题因素。
2.1 .1 阅读题名文件和案卷的题名是对档案内容的概括。
在题名准确反映档案中心内容的情况下,阅读题名是分析、提炼主题的一条捷径,但题名不能作为提炼主题概念唯一的依据。
2.1 .2 浏览全文在档案无题名或题名不能全面、准确地反映档案主题时应浏览全文。
浏览全文应注重了解题名未能反映的主题和深层次主题,发掘隐含主题。
浏览全文重点是阅读全文的开头、结束语、段落题名,必要时阅读批语、摘要、简介、目次、图表、备考表等内容。
2.2 主题类型主题的类型可以分为单主题和多主题两种。
单主题包括单元主题和复合主题(即多元主题),多主题则由几个单主题组成。
2.3 主题结构任何主题都是由一定的主题因素构成的。
构成主题的因素一般可以分解为:主体因素、通用因素、位置因素、时间因素、文种因素。
2.4 主题概念的选定在审读档案题名或全文的基础上,提炼选定出一个或若干个表达档案主题的自然语言主题概念。
2021自考“档案文献检索”笔记(3)

2021自考“档案文献检索”笔记(3)多选:1、标题词法有三个特点:A必需采用规范的检索用的语词标识B采用定组方式C 一般采用二元组配,由一个主题词和一个副标题词组成的2、单元词法有两个特点:A必需是规范的自然语言语词B采用后组配方式3、主题词(又称为叙词)的性质可归纳为:A概念性和描述性B组配性C规范性D 语义关联性E动态性4、“选词”一词有三种含义:A编表选词B标引选词C检索选词5、主题词可分为(普通主题词)和专有主题词。
6、专有主题词是表示某一特定事物的专有名词:如(地名)(民族名)(语言名)(人名)(机构_(会议)等等。
7、汉语主题词采用的词类,主要是能够表达文献主题概念的(名词)、(名词性词组)和(极少量的形容词)。
8、同义词的优选包罗(一般同义词的优选)(学名与俗称的优选)(新称与旧称的优选)(同一产品的正式命名,绰号和型号的优选)9、注释是对主题词所做的简要说明,分为(限定注释)(含义注释)两种类型。
10、主题词的规范在很多情况下就是对词的优选,被选中的词作为主题词用于(标引)和(检索)。
11、参照系统的作用,是把(主题词之间的内在联系充分揭示出来)(使主题词字顺表成为一个有机的机构。
12、参照系统把主题词间的各种关系归纳为(等同关系)、(等级关系)和相关关系)加以显示。
13、等同关系是正式主题司与非正式主题词之间的优选关系,包罗(同义关系)(准同义关系0(组化关系)(语际等价关系)。
14、等级关系是专指度深浅不同的两个正式主题词之间的关系,包罗(属种关系)、(整体与部分关系)和(包含关系)。
15、档案主题词表归纳起来有下列几个组成部分:(主题词字顺表)、(主题词分类索引或范畴索引)(主题词等级索引或词族索引)(主题词轮排索引)。
16、《中国档案主题词表》的组成部分主要有:(主题词字顺表)(范畴引或主题词分类索引)(词族索引或主题词等级索引)(专有主题词索引)(包罗人名表、机构名表)。
《中国分类主题词表》(Web版)外国名称主题词相关问题的探讨

《中国分类主题词表》(Web版)外国名称主题词相关问题的
探讨
孙迪
【期刊名称】《图书馆研究》
【年(卷),期】2018(048)005
【摘要】以外国名称主题词为主要切入点,探讨了《中国分类主题词表》(Web版)名称主题词相关的问题与可商榷之处,重点关注个人名称主题词与题名主题词存在的问题,同时也涉及类号、词间关系等.旨在对《中国分类主题词表》有待规范化的细节进行归纳、总结,提出了相应的解决方法.
【总页数】7页(P7-13)
【作者】孙迪
【作者单位】国家图书馆,北京100081
【正文语种】中文
【中图分类】G254.0
【相关文献】
1.《中国分类主题词表》Web版人名款目分类问题探讨 [J], 魏英萍
2.《中国分类主题词表》Web版人物主题词指瑕\r——以美国总统为例 [J], 刘少武
3.《中国分类主题词表》(Web版)学科主题词相关问题探析 [J], 孙迪
4.《中国分类主题词表》(Web版)外国名称主题词相关问题的探讨 [J], 孙迪
5.关于《中国分类主题词表》(第二版电子版)中小学课程主题词选词若干问题之探讨 [J], 张洪茹
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《档案学研究》2010年第6期1《中国档案主题词表》语义网络化的意义国家档案局杨冬权局长于2010年5月12日在继“两个体系”之后又专门提出了在全国建立档案安全保障体系。
“三个体系”的建设是档案领域实现可持续科学发展的重要保证,同时,也使档案领域迎来了前所未有的发展机遇和挑战。
“三个体系”的建设涉及到档案事业的各个方面。
在网络化的信息时代乃至人类正在迈向知识社会之际,一个极其重要的方面就是要求对档案信息、知识资源进行科学整合与开发,从而建立起与当今社会相适应的“三个体系”。
只有这样才能进一步改进服务形式,提高档案信息服务特别是档案部门远程服务等能力。
[1]而简约知识组织系统(Simple Knowledge Or-ganization System,简称SKOS)标准恰恰能够推动主题词表这一类知识组织系统的语义网络化的应用,对于我国档案领域而言,就是可以推动《中国档案主题词表》语义网络化的应用。
《中国档案主题词表》语义网络化的应用可以建立起高效率的档案检索语义网,提升对我国档案资源的知识检索与共享利用服务,因此,对建立“覆盖人民群众的档案资源体系”和“方便人民群众的档案利用体系”,以及对《中国档案主题词表》语义网络化应用研究*段荣婷(南京政治学院上海分院信息管理系上海200433)摘要简约知识组织系统(简称SKOS)标准的应用是实现档案信息、知识资源的科学整合、开发与服务等能力提升目标的重要技术方法之一。
本文以《中国档案主题词表》的语义置标为例,详细阐述了SKOS系统化与规范化控制的具体实现。
关键词中国档案主题词表简约知识组织系统语义网Study on the Application of Chinese Archival Thesaurus in the SemanticWeb Based on SKOSDuan Rongting(Nanjing Politics College Shanghai Branch,Shanghai,200433)Abstract:The Simple Knowledge Organization System(abbr.SKOS)is a W3C standard and its application is one of the important technological methods of realizing the integration of archival information and knowl-edge resources and improving the ability in archival exploitation and services.Taking the Chinese Archival Thesaurus’marking-up for instance,this paper demonstrates the realization of SKOS’s systematic and standardized control.Key words:Chinese archival thesaurus;SKOS;Semantic web66--档案信息化建立“档案安全保障体系”,并最终推进档案信息化与社会化建设,开创档案事业全面、协调和可持续发展新局面都具有重要意义。
2简约知识组织系统(SKOS)概念及其标准化进程所谓的简约知识组织系统(SKOS)就是指:实现知识组织系统(简称KOS)表示的一种简单的资源描述框架(简称RDF)形式化语义置标语言。
其中,知识组织系统在档案领域主要是指档案主题词表、档案分类法;而简约知识组织系统,其“简约”,主要是与语义描述和转换机制更为复杂的诸如网络本体语言(简称OWL)等相比较而言的。
SKOS是RDF专门针对于知识组织系统在语义网上的具体应用,因此其标准化进程自2003年的语义网高级开发欧洲项目(简称SWAD-Europe)开始后,紧接着于2004年开始就得到了国际万维网联盟(简称W3C)语义网最佳实践与部署工作组(简称SWBPD-WG,目前称语义网部署工作组(简称SWDWG))的持续推进。
纵观而言,其标准化进程主要经历了2005年等几个大的发展阶段后,时至2009年8月18日,W3C正式颁布了SKOS的最新标准,该标准主要由SKOS规范正文(SKOS Reference)、SKOS指南(SKOS Primer)和SKOS实例与需求(SKOS Use cases&requirements)等构成。
3简约知识组织系统(SKOS)结构-功能及其理论性与科学性研究如前所述,SKOS的置标机理主要在于其定义了经由网络而共享与链接各种知识组织系统的共同数据模型。
而SKOS数据模型提供了将现有知识组织系统迁移至语义网的标准、低成本的路径。
[2]3.1简约知识组织系统(SKOS)的结构-功能分析如图1所示,由于SKOS基于RDF,因此其包含了一套RDF词汇表,即一系列RDF属性及RDF 模式(RDF Schema,简称RDFS)类,从而才得以实现对知识组织系统内容与结构特征的编码。
由此,SKOS是由资源类型(类)与链接类型(属性)组成的标准集3,即其数据模型的基本组成要素是其类与属性,其中类代表SKOS所置标知识组织系统及其构成要素等的“对象资源”类,及其描述内容的具体“值资源”类;而属性则是描述置标对象特征信息的不同分面。
类规定属性的定义域(Domain)与取值范围(Range)。
SKOS中共有4个内置类,分别为概念体系“skos:ConceptScheme”、概念集合“skos:Collection”与概念有序集合“skos:OrderedCollection”,及概念“skos:Concept”。
类之间又具有如skos:OrderedCol-lection与skos:Collection的类与超类等关系。
同时,SKOS又内置属性多达28种。
综上所述,SKOS数据模型类似于实体(类)-关系(属性)模型,根据SKOS数据模型类及其属性结构特征,SKOS的主要功能可简单归纳如下:①知识组织系统在语义网上的表示与出版。
SKOS的主要特征是提供了表达知识组织系统概念体系结构与内容的统一标准化RDF模型。
②主题标引、规范控制(Authority Control)与查询或浏览检索。
SKOS提供了各种丰富的语义关系属性,因此它可以作为信息系统内的标引资源。
③不同知识组织系统的语义互操作,易于实施不同信息系统的联合检索。
3.2简约知识组织系统(SKOS)的理论性与科学性分析3.2.1简约知识组织系统(SKOS)的理论性分析。
从语义所描述对象角度可以将语义划分为个体语义与关系语义两大类,个体语义主要面向人读,如SKOS的注释属性均具有个体语义描述功能,其可以为专业(标引)人员编制或用户利用知识组织系统提供指导。
而关系语义主要面向计算机处理,具体控制可划分为概念、术语,及词汇等三大层次。
4其中,概念层次的语义控制是整个主题词表描述的核心,它侧重内容,标识概念间(既包括不同概念体系间,亦包括同一概念体系内)的语义关系;术语层次的语义控制侧重手段,标识概念与语词间的语义关系;词汇层次的语义控制侧重形式,标识语词间的语义关系。
通过以上三层次,SKOS得以支持语义三角模式的概念(Concept)、术语语词(Label)描述,实现知识组织体系语义的基本描述功能,如图2所示。
3.2.2简约知识组织系统(SKOS)的优越性与科学性分析。
以叙词表为例,目前知识组织系统的表示还可以通过XML词表(如ZTHES,MESH)、概念图(Conceptual Maps)与主题图(Topic Maps,简称67--《档案学研究》2010年第6期XTM)、其他RDF词表(如LIMBER,CERES,ILRT),及OWL本体等置标语言技术途径来实现,但SKOS 有其综合性优势,即其科学性体现于:①与XML词汇相比较而言,SKOS基于RDF而更规范,能够在著录/描述级别上实现语义网资源集成;②与概念图或主题图相比较而言,由于SKOS具有部分OWL 特性而能够在逻辑级别上实现语义网资源集成;③与其他RDF词表相比较而言,由于SKOS基于概念模型(paradigm)而能够实现灵活、标准化的开发,对概念的描述具有更高的精细度与专指度;④与OWL 本体相比较而言,SKOS更利于词表表示/语义描述与网络化维护需求的简单化实现。
SKOS具有最大的成本效益。
4《中国档案主题词表》应用简约知识组织系统(SKOS)的分析如前所述,SKOS是使传统知识组织系统(KOS)应用于新的语义网络环境的重要手段之一,其中最为典型的便是档案主题词表与SKOS技术的结合。
使用SKOS的数据格式,可以单独表达叙词表词汇概念及词间关系[5],计算机可“理解”其中的知识结构和知识体系,并进而标准化地实现其语义网络化。
在国际档案领域,英国[6][7]、荷兰[8]等国家均已应用SKOS将其档案主题词表发布于语义网上[9],极大地提高了包括档案在内的文化遗产的标引与检索利用效益。
对于我国来讲,与图书领域相比,档案的各种检索工具尚均未实现电子化,更无法谈及其语义网络环境中的高级应用,而SKOS技术的出现无疑将是促进我国档案检索工具电子网络化跨越式发展的一条捷径。
因此本文以《中国档案主题词表》为例,分析其SKOS化的具体方法。
《中国档案主题词表》亦是一种叙词表,因此借鉴国际已有相关研究成果,其SKOS化也可采取步进式方法,步骤包括:①分析主题词表;②将主题词表数据条目向SKOS映射;③创建转换程序。
通过以上步骤形成RDF/XML编码,并进行语法验证,进而在网上发布。
[10]4.1《中国档案主题词表》基本结构分析我国目前所使用的仍是于1995年正式出版的《中国档案主题词表》(第二版),该标准亦与《ISO2788-1986文献单种语种叙词表编辑和修订指南》[11]相兼容。
《中国档案主题词表》的组成部分主要由主表、附表和辅助索引三个部分组成,具体包括主题词字顺表、范畴索引(主题词分类索引)、词族索引(主题词等级索引),及专有主题词索引(包括人名表、机构名表)等。
其中,主题词(叙词)字顺表是主体,即主表,因此其著录内容最详,由多条词款目组成有序集合。
每条词款目大体可分为款目词、标注项和参照项三部分(主题词款目结构概念模型如图3所示)。
主题词表中的词分为“正式主题词”和“非正式主题词”两类。
相应地,词款目也分为两种:著录主题词的词款目称为主题词款目,著录非主题词的词款目称为非正式主题词款目。
主题词款目实例及其与结构概念模型[12]之间的对应关系如图3与图4所示:68--档案信息化中国档案主题词表rdf:type skos:ConceptScheme ;dct:title “中国档案主题词表”;dct:creator中国档案主题词表编委会。