《中国基本古籍库》的特色与启示——兼谈古籍全文数据库的标准与规范
古籍书目数据库建设刍议

古籍书目数据库建设刍议刘劼内容提要作者简要论述了古籍的特点以及分类和主题标引问题,认为采用《中图法》和《四部法》并用的方式是比较现实的方法;在建设古籍书目数据的方式上,提出协作建库的新思路。
古籍是中华民族文化遗产的重要组成部分,现存的古籍大约在10万种左右,这些为数浩繁的古籍具有其特殊的、巨大的价值,为弘扬民族文化,让世界充分了解中国,建设古籍书目数据库是我们义不容辞的责任。
较之中文普通书目数据库和西文书目数据库,古籍书目数据库建设有其特殊的一面,如何制作古籍书目数据库是一个值得很好研究的问题,只有从古籍本身的特点出发,借鉴中文普通图书书目数据库建设的情况,使古籍书目数据库建设从一开始就置于一个较高的起点上,少走或不走弯路,才能达到事半功倍的效果。
一、古籍的特点1.古籍,即为中国古代书籍的简称,其下限一般为1911年。
古籍书数量不再增多,内容及形式亦不会再有变化。
由于减少了许多不可预测的因素,无疑给古籍书目数据库的建设带来了便利。
2.从甲骨刻辞到雕版印书,古籍的文字形态、编排体例、载体形态和装帧形式等都在不断发生变化,这些变化的积累,给古籍编目带来繁重的任务。
如何将古籍自身的特征在编目中描述清楚,是古籍书目数据库建设必须做好的一项工作。
3.古籍的题名、责任者、出版地、出版者等著录要素不象中文普通图书那样大多集中在版权页上或题名页上,而是散布于各个不同的部分,比如题名可以出现在封面、目次、凡例、序、卷端、版心、书签等处,而且形式有所不同;责任者和责任方式往往出现在卷端,除责任者的姓名外,还有籍贯和字号,责任方式也五花八门,古籍中撰者有阙名,如用“学”、“述”等表示“著”;出版地和出版年多出现在序、跋里,这些重要著录项的确定显然会有许多困难。
4.古籍的版本问题相当重要。
同一著作由不同的字体、记录方式和载体在不同的时间和空间被表达出来,形成不同的版本。
版本的先后、优劣往往反应着古籍的价值,甚至于体现其文物的价值。
关于善本古籍书目数据库建设的回顾与思考

关于善本古籍书目数据库建设的回顾与思考王运堂李勇慧内容提要The construction of databases of rare books has just begun in China. Based on the experience of the construction of a database of rare books in Shandong Province, the authors propose some method sand pose some open problems.关键词database of rare books. database development. methods.具有5000年文明历史的中华民族留下了近10万种古籍,其丰富深厚的文化内涵是我们研究传统文化、弘扬民族精神取之不尽的宝库。
而古籍书目是古籍整理工作者走进这座智慧宝库的金钥匙和领路人。
历代公私藏书家和学者都把编制和阅读目录当作治学的津梁。
为此,近现代不少图书馆不但编制自己馆藏的卡片目录和书本目录,还相互协作统一编制一些联合目录,如《中国地方志联合目录》、《中国丛书综录》、《中国古籍善本书目》、《中国古籍总目》等。
这些古籍书目的出现,为学术界提供了极大的便利。
但要使学者传统治学方法“皓首穷经”的局面得到彻底改变,使人们可以在最短的时间内查遍所有有关古籍目录及后人研究成果,还需利用科学技术尤其是计算机在资料的储存、整理、检索、数据的统计以及索引的编制等方面的优越性。
尽早建立古籍书目数据库,才能真正做到资源共享,为人类文明的发展与进步做出贡献。
1996年,面对新信息技术提出的挑战,山东省图书馆(以下简称省馆)开始了古籍书目数据库的建设工作。
1建古籍书目数据库应具备的条件目前国内中文新书、报刊等书目数据库的建设可谓蓬蓬勃勃,而古籍书目数据库却由于各方面的限制举步维艰。
山东省馆有90年建馆历史,古籍藏量几达80万册,列全国第7位,因此对如何建立古籍数据库非常慎重。
古籍书目数据库建设面临的问题及解决措施

古籍书目数据库建设面临的问题及解决措施古籍书目数据库建设是当前学术界和文化领域的一项重要工作。
随着数字化技术的发展,越来越多的古籍书目得以数字化存储和传播,这为学者和爱好者研究和欣赏古籍书目提供了更便利的途径。
古籍书目数据库建设面临着一系列问题,需要我们采取一系列解决措施,以提高古籍书目数据库的质量和可用性。
一、面临的问题:1. 古籍书目数量庞大:古籍书目的数量庞大,包括文、史、哲、艺术等方面的丰富资源,这就需要大量的人力和物力去整理、数字化和存储这些古籍书目。
2. 古籍书目信息碎片化:古籍书目信息碎片化严重,存储在不同机构和个人手中,检索困难,信息无法被完整的连接和利用。
3. 古籍书目质量参差不齐:由于古籍书目的保存和传播受到历史和自然条件的限制,其质量参差不齐,可能存在缺页、断简、错讹等问题。
4. 古籍书目分类复杂:古籍书目多样丰富,不同地区、不同年代的古籍书目分类习惯和规范不尽相同,给数据库建设带来了一定的困难。
二、解决措施:1. 利用现代科技手段提高工作效率:可以利用OCR文字识别技术、数字化扫描技术等现代科技手段,大大提高古籍书目信息的数字化速度和精度,降低人力成本。
2. 构建统一的古籍书目数据库平台:各地的古籍书目资源应当统一整合到一个数据库平台中,以解决古籍书目信息碎片化的问题,方便用户检索和利用。
3. 加强古籍书目质量检测和修复工作:在数字化过程中,要加强对古籍书目的质量检测和修复工作,减少错讹和缺损,保障古籍书目数据库的质量。
4. 制定统一的古籍书目分类规范:建立统一的古籍书目分类规范,以解决古籍书目分类复杂的问题,方便用户查找和利用古籍书目信息。
古籍书目数据库的建设是一项重要而艰巨的工作,需要学术界、文化机构和政府部门的共同努力。
只有加强古籍书目数据库的建设,才能更好地保护和传承我国的优秀传统文化,为学术研究和社会发展提供更加丰富的资源。
相信随着我们的共同努力,古籍书目数据库的建设将会取得更大的成就。
中国基本古籍库试用介绍

中国丛书库初集共精选最具文献价值和版本价值的综合类、辑佚类 、专门类及地域类丛书4000种,各种皆据善本制成数码化全文,附以原版影像,同时配备强大的检索系统和完备的功能平台,可进行毫秒级快速海量检索和全电子化的整理研究作业
(下载后解压缩、安装,重启机器后,双击桌面上的客户端应用程序,然后输入用户名和密码即可使用,要求Windows 2000/2003/XP/vista操作系统, 1024×768×16以上显示模式)
(下载后解压缩、安装,重启机器后,双击桌面上的客户端应用程序,然后输入用户名和密码即可使用,要求Windows 2000/2003/XP/vista操作系统, 1024×768×16以上显示模式)
试用网址:
用户名:xbdx
密 码:20100909
(下载后解压缩、安装,重启机器后,双击桌面上的客户端应用程序,然后输入用户名和密码即可使用,要求Windows 2000/2003/XP/vista操作系统, 1024×768×16以上显示模式)
试用网址:
用户名:xbdx
中国谱牒库初集分为家谱编、年谱编、仕谱编、日谱编,现初集共收录宋元明清历代家谱、年谱、仕谱、日谱2000种,每种皆据善本制成保留原书所有信息(包括图、表、标记在内)的数码全文,逐页对照原版影像。同时配备检索系统和功能平台,可进行毫秒级快速海量检索和全电子化的研究整理作业,为综览历代谱牒并提取其中丰富信息开辟了广阔的前景。
试用网址:
用户名:xbdx
密 码:20100909
中国谱牒库
中国谱牒库是专门性的大型古籍数据库,主要收录历代谱牒类典籍,,北京爱如生数字化技术研究中心开发制作。
谱牒类典籍,包括家谱(含宗谱、族谱、世谱、家乘)、年谱(含年谱、年表、纪年、行实、自述等)、仕谱(含题名录、同年录、搢绅录、百官录等)、日谱(含日记、日录、日谱、日札等),所记或为一姓一家之浮沉荣辱,或为一府一衙之仕宦黜陟,或为一人一生之成败进退,或为一日一时之行事心得,无不折射出国家民族之盛衰与社会历史之变迁,而其真确翔实更有过于他书,极具研究价值。
《中国基本古籍库》的SWOT分析

《中国基本古籍库》的SWOT分析作者:朱军来源:《人文天下》2019年第15期古籍数字化属于古籍再生性保护范畴,是促进古籍研究和利用的重要手段,也是古籍保护计划的一项重要内容。
古籍数字化的意义在于将保存在书库且难以展示的古籍,利用信息技术方便地呈现在广大读者面前。
读者足不出户就可以阅览和研读经典古籍,品味圣人先哲的思想内涵,为弘扬传统文化奠定了坚实的基础。
《中国基本古籍库》是古籍数字化的代表性成果之一,但古籍数据库同质化程度高,竞争激烈。
本文利用SWOT分析法对《中国基本古籍库》进行分析,以期提出强有力的发展策略。
一、《中国基本古籍库》概况《中国基本古籍库》是综合性的全文检索版大型古籍数据库,被列为北京大学重点科研项目、全国高等院校古籍整理工作委员会重点项目、国家重点电子出版物,由北京大学教授刘俊文总纂、北京爱如生数字化技术研究中心研制。
《中国基本古籍库》主要收录先秦至民国历代典籍,每种典籍均制成数码全文,并附所据版本及增附版本之原版影像。
因此,《中国基本古籍库》不仅是中国有史以来最大的历代典籍总汇,也是目前世界上最大的中文古籍数字出版物。
二、SWOT分析法概述SWOT是Strengths(优势)、Weaknesses(劣势)、Opportunities(机会)、Threats(威胁)四个单词的首字母组合。
SWOT分析法是20世纪80年代初由美国舊金山大学韦里克教授提出的,他将企业内外各方面条件进行综合和概括,分析企业的优劣势、面临的机会和威胁,在此基础上,将企业内部的资源因素与外部因素造成的机会和风险进行合理、有效匹配,从而制定良好的战略,以掌握外部机会、规避威胁,使企业保持持续竞争力。
SWOT分析法是企业竞争情报分析方法之一,是竞争情报分析的基础和总纲。
不管是对企业自身或是对竞争对手的分析,SWOT分析法都能较客观地展现一种现实的竞争态势,并在此基础上制定竞争策略,如表1所示。
三、《中国基本古籍库》的SWOT分析(一)优势分析—Strengths1.专业的研发团队古籍数字化是一项庞大的系统工程,专业性强、难度大,需古籍研究人员、图书馆工作人员和计算机工作人员等相关领域的专业技术人员通力合作才能做好。
对建立古籍书目数据库的思考

对建立古籍书目数据库的思考陈美亚内容提要从自建古籍书目数据库还是以后套录古籍书目数据库,本馆所建书目数据库是否能达到规范化要求,古籍丛书子目怎么建库为好等三个方面,对建立古籍书目数据库进行了思考,提出了自己的意见。
关键词古籍书目,古籍数据库目前,全国图书馆已经普遍实现普通图书计算机编目,并建立了国家普通图书书目数据库和回溯书目数据库。
但是古籍的书目数据库却迟迟未问世,使古籍书目检索仍然处于手工检索阶段,这无疑给工作人员及读者都带来诸多不便。
因此,尽早建立古籍书目数据库,是图书馆领导及古籍编目人员的夙愿,也是许多读者急切盼望的事。
1999年,中国国家古籍整理出版规划小组组织全国十余家大型图书馆协作编纂《中国古籍总目》,并要在编纂《中国古籍总目》的基础上建立中国古籍总书目数据库。
这个消息使一些图书馆领导决定等待古籍书目数据库的问世,而不自建古籍书目数据库。
认为古籍书目数据库各自建立将耗费巨大,既然现在古籍总书目数据库迟早都会问世,各图书馆哪里用得着再各自建立呢,图书馆应该避免这种重复建设情况的发生。
李岚清同志在1998年视察北京图书馆时,就对开展文献资源共享作了充分肯定。
1999年初,由北图召集的全国文献信息共建共享协作会议,使“相互合作,资源共享”成为全国多数文献收藏单位的共识。
因此认为,在目前图书馆的人力、物力、财力都普遍紧缺的情况下,滞后建库为好。
然而就在这个各馆是否自建古籍书目数据库的问题下,也有人提出了不同的意见。
这种意见认为:这些大型图书馆所藏古籍可以代表我国古籍的基本收藏情况,但不一定囊括了我国所有古籍的收藏品种。
因此,这十余家以外的图书馆的古籍书目数据可以作为中国古籍总书目数据库的有益的补充。
为了中国古籍书目数据库收入的书目更加全面、丰富,不让其有所遗漏,全国所有古籍收藏者都应该向中国古籍总书目数据库提供规范化的古籍书目数据。
为此,各图书馆首先要把各自的古籍书目数据库做成能够交换用的规范化的书目数据,要建立自己的规范化的古籍书目数据库。
古籍书目数据库建设面临的问题及解决措施

古籍书目数据库建设面临的问题及解决措施随着数字化技术的发展和应用,古籍书目数据库的建设越来越受到学术界和社会的重视。
古籍书目数据库的建设不仅可以对古籍文化进行保护和传承,还可以为学术研究、教育教学以及文化交流提供丰富的资源。
古籍书目数据库的建设面临着一系列问题,如何解决这些问题成为当前工作的重要任务。
一、问题一:古籍书目的整理和归纳古籍书目的整理和归纳工作是古籍书目数据库建设的基础工作。
古籍书目的整理需要将古籍文献按照不同的分类体系进行归纳,包括古代经部、史部、子部、集部以及其他文献等。
而在整理过程中,还需要处理文字中的错讹、缺失、混淆等问题,以确保古籍书目的准确性和完整性。
解决措施:1. 制定统一的文献分类体系,建立标准化的古籍书目整理规范,以便进行统一的整理和归纳;2. 利用数字化技术和人工智能技术,开发自动化的古籍书目整理工具,提高整理效率和准确性;3. 加强古籍书目整理人员的培训和管理,提高其整理能力和质量。
二、问题二:古籍书目的数字化和存储古籍书目的数字化是古籍书目数据库建设的核心内容之一。
数字化工作需要将古籍书目的内容进行扫描、文字识别和格式转换,然后将其存储到电子数据库中。
古籍书目的存储需要考虑到数据的安全性、可靠性和可访问性,以及数据库的容量和扩展性等问题。
解决措施:1. 制定古籍书目数字化的标准和规范,统一扫描、文字识别和格式转换的操作流程,提高数字化质量和效率;2. 采用先进的数据库存储技术,建立多副本、备份和灾难恢复机制,确保数据的安全性和可靠性;3. 针对古籍书目数据库的特点,设计优化的数据存储结构和检索索引,提高数据库的查询性能和扩展性。
三、问题三:古籍书目的数据标引和检索古籍书目数据库的建设不仅要求古籍书目的内容得以数字化保存,还需要进行数据标引和检索工作,以便用户能够方便快捷地查找相关文献。
数据标引需要对古籍书目的题录、作者、出版年代、出版地点、版本信息等进行标注和索引,检索则需要设计相应的检索系统和查询接口。
古籍书目数据库建设面临的问题及解决措施

古籍书目数据库建设面临的问题及解决措施古籍书目数据库建设是一个涉及到文化传承和学术研究的重要工作。
随着数字化技术的不断发展,越来越多的古籍书目被数字化存储,形成了大量的古籍书目数据库。
古籍书目数据库的建设面临着诸多问题,包括数据质量、标准化、版权保护、数据安全等方面的挑战。
本文将就古籍书目数据库建设面临的问题及解决措施进行探讨。
一、问题(一)数据质量古籍书目数据库的建设离不开数据质量的保证,包括数据的准确性、完整性和一致性等方面。
古籍书目数据量巨大,数据质量参差不齐,存在着大量的错误、重复和不完整的数据,使得古籍书目数据库的建设面临着严峻的挑战。
(二)标准化古籍书目涉及到各种古代文字、版本、编纂体例等多样化的数据类型,缺乏统一的标准化规范,导致不同数据库之间的数据无法互通共享,降低了古籍书目资源的利用效率。
(三)版权保护众所周知,古籍书目涵盖丰富的文化遗产,其中很多作品仍然受到版权保护。
如何在数字化处理过程中合理保护版权,成为古籍书目数据库建设的难点。
(四)数据安全古籍书目数据库中蕴含着大量珍贵的文化资源,如何保障这些数据的安全性成为了古籍书目数据库建设需要解决的重要问题。
二、解决措施(一)建立规范的数据采集和清洗流程针对数据质量问题,可以建立规范的数据采集和清洗流程,对数据进行严格审核和清洗,提高数据的准确性和完整性。
利用人工智能和大数据技术,对古籍书目数据进行自动校对和纠错,提高数据质量。
(二)推动古籍书目标准化工作为了解决古籍书目标准化问题,可以倡导并推动古籍书目数据的标准化工作,建立统一的数据格式和编码规范,以便不同数据库之间的数据互通共享。
(三)尊重版权,建立合理的共享机制对于版权保护问题,可以尊重古籍书目的版权,建立合理的共享机制,鼓励版权所有者与数据库建设者进行合作共赢,以促进古籍书目数据库的建设和利用。
(四)加强数据安全管理为了保障古籍书目数据的安全性,可以加强数据库的安全管理工作,采取多种手段保护数据安全,包括加密传输、权限管理、备份恢复等措施,以确保古籍书目数据不受损失和泄露。
中国基本古籍库介绍

爱如生中国方志库介绍中国方志库是专门收录历代地方志类典籍的全文检索版大型古籍数据库,由北京大学教授刘俊文总纂,北京爱如生数字化技术研究中心开发制作。
历代地方志类典籍,包括全国地理总志(如方舆志、一统志等),各地方志(如省通志、府州志、县志、乡镇志等),各类专志(如山川志、边防志、都城志、宫殿志、园林志、寺观志、书院志等),各种杂志(如乡土志、物产志、风俗志、考古志、游历志等),以及外志(如环球志、一国志、多国志等)。
所记大至一国一省一州一府,小至一村一镇一城一关,举凡历史沿革、地理形势、行政建置、财赋收入、物产资源、人文景观、灾异祸乱、乡土风俗,靡不详尽。
至今治国理政和从事地区开发及学术研究,仍须从中汲取丰富的信息。
中国方志库网罗广博,共收录汉魏至民国历代地方志类典籍1万种。
每种皆据善本,采用爱如生独有的数字再造技术制作,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记等无障碍录入和非嵌入式显示。
总计全文超过20亿字,影像超过1200万页,数据总量约400G。
同时配备强大的检索系统和完备的功能平台,可进行毫秒级全文检索和一站式整理研究作业,堪称地方志类典籍数字化的空前巨献。
中国方志库受到国内外学术文化界的热烈欢迎,全球数十家顶级用户,如中国国家图书馆、中国国家博物馆、台湾中央研究院、日本关西大学、法国国家研究中心、德国柏林国立图书馆、美国哈佛大学等。
中国方志库分为五集,现已出版:1、中国方志库初集(收录历代省通志及府州县厅志2000种)2、中国方志库二集(收录历代省通志及府州县厅志2000种)爱如生中国谱牒库介绍中国谱牒库是专门收录历代谱牒类典籍的全文检索版大型古籍数据库,由北京大学教授刘俊文总纂、北京爱如生数字化技术研究中心开发制作。
谱牒类典籍,包括家谱(含宗谱、族谱、世谱、家谱、家乘等)、年谱(含年谱、年表、纪年、行实、自述等)、仕谱(含科举录、题名录、同年录、搢绅录、百官录等)、日谱(含日记、日录、日谱、日札等),所记或为一姓一家之浮沉荣辱,或为一府一衙之仕宦迁黜,或为一人一生之成败进退,或为一日一时之行事心得,无不折射出国家民族之盛衰与社会历史之变迁,而其真确翔实更有过于他书,极具研究价值。
中国古籍书目数据库建设浅议

中国古籍书目数据库建设浅议康尔琴内容提要对建立统一的中国古籍书目数据库的有利条件和不利因素进行了分析,并提出了几点建议。
关键词中国古籍书目数据库古籍是中华民族丰厚文化积淀的载体,是中华民族繁衍、生存、进化的真实写照。
具有5000年文明历史的中华民族留下了近10万种古籍,其博大精深的文化内涵是我们研究传统文化、弘扬民族精神取之不尽用之不竭的宝库。
为了更好地利用这一宝贵资源,实现资源共享,近年来,一些图书馆纷纷以馆藏卡片目录为基础,建立馆藏古籍书目数据库。
由于各自为政,没有统一的规范,建成的数据库很多,但真正成为网上资源的却屈指可数。
即便能上网,也只是部分中国古籍。
因此,建立统一的中国古籍书目数据库,已迫在眉睫。
本文试就建立统一的中国古籍书数据库的有利条件和不利因素进行一些粗浅的分析,并提出几点相应的措施。
一、有利条件1.1 领导机构1975年10月,重病在身的周恩来总理发出了“要尽快把全国善本书目编出来”的指示,但由于十年浩劫,此项工作搁置未动。
1977年春天,这项工作重新被安排上议事日程。
1978年4月,在南京正式召开了全国古籍善本总目编辑工作大会,向全国图书馆界部署了这项工作。
1993年,国务院古籍整理出版规划小组,邀集一些专家学者,立项编制《中国古籍总目》,同时该小组决定在此基础上建立中国古籍书目数据库,使这一项目有了领导机构。
1.2 理论基础自九十年代中期以来,我国关于古籍书目数据库建设的理论研究有了进一步发展。
如李致忠先生的《再论建立中国古籍书目数据库》一文,从“统一分类法、著录标准、机读格式、软件、中文字库”等五方面阐述了建库思想;沈乃文先生《中国应建立自己的古籍书目数据库》一文,详尽论述了古籍书目数据库的十大优点,建库的十条有利条件和六大障碍;刘刚的《浅谈古籍书目数据库建设的若干问题》、秦淑贞的《论古籍书目数据库规范化》等文章,都从理论上论证了建立中国古籍书目数据库的策略及途径,为建立中国古籍书目数据库提供了理论基础。
馆藏古籍书目数据库建设的实践与思考

馆藏古籍书目数据库建设的实践与思考王会丽内容提要本文结合河南大学图书馆古籍书目数据库建设的实践,就古籍建库中存在的更新管理观念、强化技术支持、信息化人才培育等问题提出了自己的看法。
关键词古籍,书目数据库,建设古籍是我们中华民族的宝贵的文化遗产,它们经受了历史的洗礼保存至今,无论其文献内容或是载体本身都具有极高的认识和研究价值。
据专家估计,我国现存古籍1万种左右,分散保存在全国各地的图书馆中,传统意义上的查阅、整理、利用很不方便。
如今,信息技术的快速发展和广泛应用为古籍的数字化存取、整理和利用提供了广阔的发展空间。
经过近二十年的探索,古籍的数字化建设已经初见成效,各种古籍书目、全文数据库和光盘相继问世并提供使用,为广大古籍工作者提供了极大的便利。
其中,建立完整、规范的古籍书目数据库是古籍数字化的基础的工作。
因为只有共知,才能在更高层次上实现古籍文献信息资源的共享,使优秀的中华传统文化得以广泛传播和创新。
自20世纪90年代初以来,国内已有许多图书馆开始建设馆藏古籍书目数据库,国家图书馆、上海图书馆、北京大学图书馆等还将本馆古籍书目数据上网,为后来的建库工作提供了借鉴的经验和范例。
河南大学图书馆现存古籍17万多册,2003年初开始进行古籍整理和建库工作。
笔者结合一年来的建库实践,谈谈古籍建库的组织管理以及由此引发的一些思考。
1古籍建库的组织管理1.1建库前统一思想,明确目标建库前首先要做好思想工作,使大家对建库的重要意义和具体目标有清醒认识,从而积极主动地投身工作。
为此,我馆在建库之初就专门成立了古籍建库领导小组,召开建库相关人员研讨会,交流思想、明确目标、统一认识。
1.1.1认识建库的重要意义首先,馆藏古籍为我校历史、中文、艺术等专业的教师和研究生的教学、科研和学习提供了重要的文献保障。
为了利用信息技术在更大范围内宣传馆藏古籍,更全面地揭示古籍的特征,为读者提供更便捷、多样的检索途径,继普通图书书目数据库建库之后,古籍书目数据库的建设成为当务之急。
中国基本古籍库

中国基本古籍库资源类型:电子图书全文数据库语种:中文学科领域:历代名著和各学科基本文献内容简介:中国基本古籍库是综合性大型古籍数据库。
该库分为4个子库、20个大类和100个细目,共收录上自先秦下迄民国的历代名著和各学科基本文献1万余种,每种均提供1个通行版本的数码全文和1-2个珍贵版本的原版影像。
总计收书约16万卷,版本12800多个,全文约17亿字,影像约1千万页。
该库拥有强大的检索系统、完备的功能平台和灵活的纠错机制,可通过多条路径、采用多种方法进行快速海量检索,可轻松实现古籍浏览、校勘、标注、分类、编辑、下载、打印的全电子化作业,并可随时进行软件升级和数据更新以确保在持续改进中日臻完善。
收录文献年限:上自先秦下迄民国进入方式:校园网IP地址控制1.在电子阅览室上机,直接点击“开始”按钮,在开始菜单中找到“中國基本古籍庫”/“客户端应用程序”点击进入,用户名:user,密码:user,服务器:202.112.82.23;2.在校园网内其它地点上机,需要先下载安装客户端,之后即可按照第一种进入方式开始检索。
客户端下载路径:图书馆主页→电子资源→查找数据库→在关键词框键入“中国基本古籍库”→点击“GO”确定,在检索结果列表中找到“中国基本古籍库”,并点击后面的“”链接。
按照“内容描述”下载安装客户端软件,安装客户端后最好点击“确定”重启机器。
检索方法:1.检索:分为分類檢索、條目檢索、全文檢索和高級檢索四种检索方式。
– 分類檢索:即按中国基本古籍库的库、类、目的树形结构进行定向检索。
在左栏双击“中国基本古籍库”,可见4个子库;双击4个子库,可见20个大类;双击20个大类,可见100个细目;单击所选定的书目,此时在下栏可见该书的版本信息;双击此书目,即可进入正文;– 條目檢索:可限定书名、作者、时代、版本、篇目等条件进行目标检索,可检索到某时代某作者某书某版本某卷某篇,并可预览其概要;– 全文檢索:输入任意字、词或字符串进行检索。
古籍书目数据库规范化亟须解决的几个问题

古籍书目数据库规范化亟须解决的几个问题陈微内容提要实现古籍书目数字化是大势所趋,但需要解决的问题很多。
本文就其中建立统一的机读目录格式、遵守统一的著录规则、使用统一的分类法和统一的主题标引依据等四个问题分别作简要阐述,并提出可行性建议。
关键词古籍书目数字化,四个问题,建议规范化的古籍书目数据库,是指在各种编目软件支持下做出的在格式、内容、标引依据以及字体等方面都按国家标准建立的统一的古籍书目数据库。
这样的书目数据库,从横向来说可以达到各馆的古籍书目数据一致,从纵向来说可以达到古籍和现代文献书目数据一致。
实现古籍书目规范化需要解决的问题很多,其中,业内人士公认为最重要的是:要有统一的机读目录格式、遵守统一的著录规则、使用统一的分类法和统一的主题标引依据四个问题。
这里,就此试谈个人的认识。
一、建立统一的行之有效的机读目录格式从图书馆自动化及网络化的发展趋势看,统一的行之有效的机读目录格式,是建立规范的成功的古籍书目数据库的必要前提之一。
如果没有规范的机读目录格式,古籍书目数据库就无法进行交换,就无法真正实现国内乃至世界范围内的资源共享。
国际图联开发的UNIMARC是世界各国图书馆通用的机读目录格式,各国都根据它作了适合本国国情的修改。
1996年,我国文化部颁布了《中华人民共和国文化行业标准·中国机读目录格式》即CNMARC。
CNMARC是目前我国文化行业的唯一机读目录标准格式,它适用于我国国家书目机构同其他国家书目机构之间及我国国内图书情报部门之间以标准的计算机可读形式进行信息交换,在数据规范方面为书目数据库的建立和书目数据处理提供参照或依据。
但是,CNMARC是以中文普通书刊及音像制品为主要对象而设置的,对古籍图书的复杂性和特殊性没有作充分的考虑,尤其是在出版发行项上,所以用CNMARC来套录古籍书目相当勉强。
2001年10月,国家图书馆根据《GB3792.7-87古籍著录规则》和《中国机读目录格式使用手册》等文献的基本原则,以及古籍编目的实践和经验,选用了适合于汉语文古籍的字段和子字段,并增加了有关的内容说明和应用实例,编写了《汉语文古籍机读目录格式使用手册》,供编制古籍机读目录数据时参照使用。
古籍书目对数据库著录体例的启示

了大量 的各 种形 式 的 书 目。纵 观 中 国 目录 学史 , 我
们 不难 发 现 , 国的编 目者 越 来 越 注重 对 古 籍 版 本 中
录》 丁丙《 、 善本书室藏书志》 陆心源《 、 醑宋楼藏书 志》 民国时期张元济 《 , 宝礼 堂宋本书录》 《 、 涵芬楼 烬余 书录》 以及建国后 出版的王重民《 , 中国善本 书
示意 义 。 1 历代 书 目著 录版本体 例 的演 进
著录, 但并 没 有形成 一种 规范 的著 录格式 。 乾 隆 四十年敕命 于敏 中主持 编 纂 的《 禄 琳 琅 天 书 目》 最 早 以一 种 格 式 化 方 式 著 录 版本 的 书 目。 是 《 天禄琳 琅 书 目》 每条大 概 可分 为三个 部分 : 一 部 第 分 著 录书名 、 函数 、 册数 , 二部 分介绍 卷数 、 第 序跋 者
9) 图书馆 学报 1 1
文章编号 : O — 16 2 1 )5 09 0 l 3 7 3 (o 2 o — 04— 3 O
2 1 年 5 总第 19期 02 期 8
古籍 书 目对 数 据 库 著 录体 例 的启 示
李 婧
( 中国海洋大学 文学与新闻传播学院, 山东 青 岛 260 ) 6 10
提 要》 , 或 多或 少 沿 用 了《 禄 琳 琅 书 目》的著 等 都 天
录体例 , 不断 地加 以改进 , 录款 项也逐 渐增 多 和 并 著
的著录。特别是清代 以来 , 版本 目录 占据 了 目录学 的主流 , 对古籍外在形态的著录 日趋繁复 , 录体例 著
也不 断完 备 。
书 目著 录版 本 , 自南 宋 尤 袤 《 初 堂 书 目》, 肇 遂 但仅 有 少 数 条 目著 录 , 十 分 简 略 。 明 代 李 廷 相 且 《 阳蒲 汀 李 先 生 家 藏 目 录》、 用 贤 《 定 宇 书 濮 赵 赵
古籍全文数据库建设的技术与实践

技术概述
1、古籍全文数据库建设的意义 和价值
古籍全文数据库建设是将传统纸质古籍进行数字化转换、整理、存储和检索 的过程。这样的数据库能够提供方便快捷的文献检索和利用服务,提高学术研究 的效率,同时也有利于保护珍贵古籍,防止因物理磨损和自然灾害导致的文献损 失。
2、古籍全文数据库建设的难点 和挑战
(3)知识产权和数据安全问题。古籍全文数据库建设过程中需要处理好知 识产权和数据安全问题,尊重和保护原著的知识产权,同时确保数据的安全与保 密。
3、古籍全文数据库建设的技术 路线和方法
针对上述难点和挑战,古籍全文数据库建设的技术路线和方法应包括:
(1)选用先进的数字化设备和 软件,提高扫描质量和效率。
古籍全文数据库建设的技术与 实践
01 引言
03 实践案例
目录
02 技术概述 04 参考内容
引言
随着信息化时代的到来,古籍文献的数字化保护与利用已成为学术界和文化 遗产保护领域的热点。古籍全文数据库的建设对于推进学术研究、保护珍贵文献、 传承传统文化具有重要意义。本次演示将介绍古籍全文数据库建设的技术与实践, 以期为相关领域的从业者提供有益的参考。
然而,全文数据库检索也面临着一些挑战,如效率、准确性和隐私保护等问 题。为了提高检索效率,需要优化索引结构和查询算法;为了提高准确性,需要 改进信息抽取和文本处理技术;为了保护用户隐私,需要完善数据加密和隐私保 护制度。
随着和大数据技术的快速发展,未来的全文数据库检索将更加智能化和高效 化。通过应用深度学习算法,能够对文本进行更细致的分析和处理,提高检索的 准确性和效率。随着数据挖掘技术的不断创新,我们将能够从海量的数据中提取 出更多有价值的信息,为全文数据库检索的优化和发展提供更多可能性。
我国古籍书目数据库建设标准规范探讨

Discussion about the Construction Standard and Norms of Bibliographic Databases of Chinese
Ancient Books
作者: 周琳洁
作者机构: 洛阳师范学院图书馆,河南洛阳471022
出版物刊名: 图书馆建设
页码: 47-50页
年卷期: 2010年 第2期
主题词: 古籍 书目数据库 标准规范 古籍数字化
摘要:古籍数字化相关标准是建设古籍书目数据库的基础。
目前我国古籍书目数据库建设存在着著录标准规范、分类法和字库应用不统一等问题。
占籍书目数据库建设应以实现古籍资源的共建共享为基本目的,主要方法有修订和完善古籍数字化著录标准、规范古籍书目数据库的分类标准、建立古籍数字化规范数据库、规范古籍书目数据库的字库、实行古籍与普通图书及音像制品统一建库。
《中国基本古籍库》电子版 - 复旦大学图书馆

大型中华古籍全文数据库——《国学宝典》简介《国学宝典》是一套主要面向中文图书馆、中国文化研究机构、专业研究人员和文史爱好者的中华古籍全文资料检索系统,由北京国学时代文化传播有限公司组织国内一批文史专家,经过长达 6 年的资料搜集、精心校勘,幷借助清华大学的网络技术研制完成的。
这些文献内容均为文史研究人员常用资料,实用价值很大,经国内外数百名专家使用,受到一致好评,是中国古籍电子化产品中性价比最高的产品之一。
一、收录范围与标准《国学宝典》收录范围为上起先秦、下至清末两千多年的所有用汉字作为载体的历代典籍。
迄今为止,该系统已收入古籍文献3,800多部,总字数逾8亿字,3,800余种,目前仍以每年1~2亿字的速度扩充数据库内容,其目标是建成一个包含所有重要中文古籍的全文电子数据库。
收录标准为:1、历代经典名著;2、各学科的基本文献;3、经过整理,具有一定史料价值和研究价值的文献;4、用户所需的其它文献。
选择底本的标准为:1、完整本而非选本或残本,2、母本或现存最早的版本及精校本。
3、经整理的标点本。
《国学宝典》选书时充分吸收了清代以后至当代学人有关古籍整理的重要成果,充分考虑文献的实用价值,一批通俗小说、戏曲等均为《四库全书》所未收。
大部分文献附有内容提要,包括作者简介、内容组成、版本等相关信息,增加了数据库的附加值。
二、分类方法与资料格式:《国学宝典》按照电子文献的特点,以四库分类法为基础,建立了一套兼容古籍文献和电子数据库特点的分类法,采用国学公司独立开发的数据库格式进行储存管理。
《国学宝典》目录结构【经部·十三经】【经部·十三经注疏】【经部·其它】【史部·正史】【史部·地理】【史部·别史及其它】【史部·目录】【子部·周秦诸子】【子部·儒家】【子部·释家】【子部·道家】【子部·术数】【子部·兵家】【子部·医学】【子部·科技】【子部·类书】【子部·蒙学】【子部·杂家】【子部·书法绘画】【子部·音乐艺术】【子部·隋以前笔记】【子部·隋唐笔记】【子部·宋元笔记】【子部·明代笔记】【子部·清代笔记】【子部·民国笔记】【子部·文言小说】【子部·明清通俗小说】【集部·总集】【集部·别集】【集部·文论】【集部·强村丛书】【集部·戏曲】【集部·六十种曲】【集部·盛明杂剧】【丛书·香艶丛书】《国学宝典》数据格式主要有以下几种格式TXT,纯文本,仅含文字DBF,数据库,含文字和相关标示HTM,网页格式,含文字和图片、声音等其它格式,如Word,北大方正等。
浅谈古籍书目数据库建设中的主题标引

浅谈古籍书目数据库建设中的主题标引张洪茹内容提要从古籍、主题标引、古籍主题标引的概念;目前我国古籍主题标引的状况;对古籍进行主题标引的必要性和利用《中国分类主题词表》对古籍进行主题标引的可行性等方面,阐述了古籍书目数据库建设中有关古籍主题标引的相关问题。
关键词古籍,主题标引,古籍主题标引,中国分类主题词表古籍是中华民族丰厚文化积淀的载体,它博大精深的内涵是我们研究传统文化、弘扬民族精神取之不尽用之不竭的宝库。
为更好地利用这一宝贵资源,建立馆藏古籍书目数据库,是方便读者查询、提高古籍利用率的一个重要手段。
但目前我国大多数图书馆的古籍书目数据都未进行主题标引,笔者认为编制古籍书目数据时进行主题标引非常重要。
本文就此谈点粗浅认识,以抛砖引玉。
1古籍、主题标引、古籍主题标引的概念国家图书馆副馆长陈力先生在《中文古籍数字化的再思考》一文中说,古籍是一个非常模糊和难以定义的概念。
但是,他认为大家公认的古籍是内容反映中国古代传统思想、学术与文化的,主要产生于民国以前的文献。
这也是古籍与现代文献最根本的区别所在。
主题标引是通过对文献内容的分析,把文献所论述的对象(或事物)概括出来,再使用规范化词汇———主题词,将其按照一定的规则加以组织,使之成为文献检索入口的过程。
古籍主题标引是在古籍编目的过程中,标引人员对古籍所论及或涉及的事物进行概括,选用正式主题词,将其按照一定的规则加以组织,使之成为古籍检索入口的过程。
2我国图书馆实施古籍主题标引的现状主题标引是深入揭示文献内容,提供多途径检索的一个重要手段。
然而,包括国家图书馆、上海图书馆等在内的国内大多数图书馆的古籍书目数据都未进行主题标引。
其主要原因可能是因为没有一部专用的古籍主题词表。
笔者认为,古籍主题词表的缺失确实给古籍的主题标引带来一定的困难;但是,我国目前规模最大的分类主题一体化的情报检索语言———《中国分类主题词表(第二版)》(以下简称《中国分类主题词表》)可作为古籍主题标引的主题词表,该词表收录主题词及主题词串21万条,包括哲学、社会科学和自然科学所有领域的主题概念。
中文古籍全文数据库的类型与规范

中文古籍全文数据库的类型与规范
毛建军
【期刊名称】《中国索引》
【年(卷),期】2008(006)002
【摘要】文章调查了国内外中文古籍全文数据库的建设情况,并从古籍全文数据库的媒介和对象角度对其进行了分类,同时提出了古籍全文数据库的标准与规范问题。
【总页数】5页(P14-18)
【作者】毛建军
【作者单位】新乡学院中文系,河南新乡453000
【正文语种】中文
【中图分类】G354.45
【相关文献】
1.中文公安期刊全文数据库标准规范建设研究 [J], 刘万顺
2.《中国基本古籍库》的特色与启示——兼谈古籍全文数据库的标准与规范 [J], 毛建军
3.《中国基本古籍库》的特色与启示——兼谈古籍全文数据库的标准与规范 [J], 毛建军;
4.《中国基本古籍库》的特色与启示——兼谈古籍全文数据库的标准与规范 [J], 毛建军
5.《中国学术期刊全文数据库》与《中文科技期刊全文数据库》医学专辑的比较分析 [J], 杜朝东;俞平
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hale Waihona Puke IM公司合作将 莎士 比亚 的戏剧全文数字化 , B 并命 名 为“ hkser ret 。19 SaepaePo c” 94年 , 国政 府 公 布 j 美 了国家信 息基 础 建 设 ( i) 划 下 的规 划 草 案 “ Nl 计 人 文 和艺术 上信 息 高 速 网络 ” H m ni n r n ( u aie adAt o ts s
收 稿 日期 :0 9— 4— 5 20 0 2
统” 。该系统共收录《 挥麈录》 《 、梦溪笔谈》 5 等 0种 宋 人笔记 , 涉及 1 0 0余类 、 0 人 、000余 条 8 230余 5 0 史料 数据 川 ’ 。系 统 采 用 D s管 理 系 统 , 数 据 o 将 储存 在计算 机磁 盘 内。尽管 这还是 较 为简单 的全文 数 据库 , 这一 系统 是 国 内首 创 的宋 史 高 级 科研 电 但 脑 系统 。同年 1 , 京大学 、 2月 南 河南 大学 、 苏州 大学 又联 合成功 研制 了《 算机 甲骨 文信 息处 理 系统 》 计 。 随后 , 国内科研 院所 与 企业 也 开 发 了适 合 汉 字特 点 的全 文检索 系统 。19 年 , 9 1 山西大 学计 算 机 科学 系 刘开瑛 等使 用 自动切词 、 自动 分类 、 自动词 性标 注等 自然语 言处 理技术 研 制 了中文全文 检索 系统 。19 95 年 国家 电子 工业 部计算 机与 微 电子 技术 发展研 究 中 心 ( CD) C I 中文信 息 处 理 开 放 实 验 室 ( IO ) 制 CP L 研 了中文 全文 检 索 系统— —rR 系统 。TR系 统可 对 兀 I 中文 的文本 型数 据 ( 括科 技 文献 、 闻报 道 、 学 包 新 文 作 品 、 史 文 献 、 子 书 籍 等 ) 行 检 索 【( 历 电 进 4卜 ¨。 J TR系统避 免 了人 工标 引 的困难 和传 统检 索 系统 只 I 能检 索主题 词 的缺陷 , 增加 了用户查 询 的 自由度 , 提 高 了查 询效 率 , 为大 范 围 的数 据 检索 提 供 了有 效 的
20 09年 l 0月
譬 j 争千 』 I
J u n lo n g me t o r a fMa a e n
0c . 0 9 t2 o Vo . 2 N . 12 o 1
第2 2卷
第 1期
《 中国基本古籍库》 的特色与启示
兼谈 古籍 全 文数 据 库 的标 准 与规 范
毛 建 军
( 乡学 院 文 学院 , 新 河南 新 乡 4 3 0 ) 5 0 3
摘 要: 回顾 了古籍全文数字化的实践 , 出古籍全 文数据 库 的标 准 与评价 研究将 有利于古籍全 文数据库建 设和整合 , 指
通过分析《中国基本古籍库》 具体提 出古籍文数据库的标 准与规 范。 关键词 : 《中国基本古籍库》 古籍 数字化; ; 古籍全文数据库 中图分类号 : 2 5 G5
工具 。
2 0世纪 9 0年代 , 国的古籍全文数据库建设 我
得到 了迅速 发展 。19 9 0年 9月 1 日由武 汉 大学 图 8 书情 报研究 所 陈光祚 主持研 制 的国家教 委文科 博士 点基 金项 目 “ 北 省 地 方 志 全 文 检 索 系 统 ”( O 湖 L— C L S 通过鉴 定 。该 系统 从地方 志人 名 、 名 、 A HI) 地 事 件等 特殊词 汇较 多 、 境较复 杂 的特 点 出发 , 用手 语 采 工选 词 ( 括 区分 词 类 和加 注标 引等 ) 文 字 处 理 包 和 功 能相结合 的半 自动标 引 方法 , 实现 了全 文 检索 并 具有 法定数 检索 、 名地 名 聚 类 和后 控 制词 表 等 功 人 能 。系统采 用 tro— 儿 ub C为工具 开发 软件 , 本 基 功能包 括 “ 索功 能” “ 出功 能 ” “ 检 、输 、 系统维 护 和操 作功 能 ” 。其 中 , 检词 功 能提 供 了截 词 、 尔逻 辑 检 布
一
文献标 志码 : A
文章编号 :64—6 1 (o 9 o 一 14— 3 17 5 1 2 o ) l 0 0 0
古籍全 文数 字化 的实践 古 籍全文 数据 库是 在全文 数据 库技术 实践基 础 上 产生 发展 的 。2 0世 纪 5 0年代 , 着 计 算 机 技 术 随 的发展 , 文 数 据 库 首 先 出 现 在 法 律 、 学 领 域 。 全 文 15 99年 , 国匹兹 堡大学 卫生 法律 中 心伯扬 ( s 美 A p— e ) 据系统 公 司首先 建立 了全 文 检索 系 统 。2 n数 0世 纪6 0年代 , 国米德 ( A 公 司研 制 了联 机全 文 美 ME D) 检索 系统— — “ 数据 中心” D t Cnr) 93年 , ( aa et 。17 e 美 国米德 公 司建成 的 Lxs ei数据 库 是 世 界上 第 一 个 面 向公众 的大 型全 文 数据 库 , 标 志 着全 文 数 据 库 它 的诞 生 …¨ ” 。18 9 4年 , 国斯 坦 福 大学 与 美 国 美
I f r to S pe Hih y: A Nai n l P o n o main u r g wa t a r — o
i ) fe ∞一 。 l
由于台湾 地 区 的计 算 机应 用 早 于 大陆 , 因此 古 籍全文数据库的开发与建设也早于大陆。18 94年 7 月 台湾地 区 中央研究 院历 史语 言研究 所与 计算 中心 合作 开 发 “ 二 十 五 史 》 文 资 料 库 ” 9 5年 l 《 全 。18 0 月开 发 “ 代墓 葬综 合研究 资料库 ” 18 汉 ,96年 2月 开 发“ 台湾 土著语 言 资料 库 ” 18 ,96年 4月 开发 “ 台湾 日据 时代 户籍 资料库 ”,97年 1月开 发 “ 18 清代 竹 堑 地 区土地 申告 书 资 料 库 ” 1 8 ,9 9年 计 算 中心 开 发 了 “ 说 文解 字 》 《 篇 》 料库 ” 《 和 玉 资 。其 后 , 湾地 区 台 中央研究 院历 史语 言研究 所在 此基础 上开 始逐 步实 施“ 史籍 自动 化计 划 ” 相 继 建 立 了 “ 秦 两 汉 史 籍 , 先 资料库” “ 十三经 注疏》 、《 资料库 ” “ 十通》 料 、《 资 库” 等大型资料库 , 开发完成了“ 汉简检索系统” 。 大 陆地 区全 文 数 据 库 的 建 设 略 晚 一 些 。18 97 年秋 , 南 大 学 创 建 了 “ 脑 化 宋 人 笔 记 检 索 系 河 电