我国古籍数字化进展与研究述评

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
・18・
内科研院所、高校图书馆、公共图书馆和一些致力于 古籍数字化的商业机构在古籍数字化建设过程中所做 出的努力和贡献做了介绍。他们列举了中国社会科学 院的《全唐诗》《先秦汉魏晋南北朝诗》等数据库, 台湾“中央研究院”的“汉籍全文资料库”,北京大 学刘俊文教授组织编纂的“中国基本古籍库全文电子 信息版光盘”系统。南京师范大学的《全庸五代宋 词》,河南大学的“南宋主要历史文献”等数据库,
应具有研究支持功能。目前,文史哲等领域的研究人
员作为古籍数字资源的主要使用者,已不满足于在计 算机上对古籍做一般的浏览阅读,而开始对古籍数字 化提出了新的要求,希望借助于先进的技术手段,使 数字化古籍具备更丰富多样、更符合学术研究需要的 功能,从而支持甚至引导更深层次的研究。旧]而限于 目前古籍数字资源的开发深度不够,研究人员的这些 需求尚未能较好地满足。 4相关建议
术中的关键性技术——古汉语词典切分技术,目前尚 未解决,影响了古籍自动标引、名称主题检索及专有
名词检索的实现。 3.4数字化古籍资源的研究支持功能有待提高 古籍数字化的目的和作用不仅是保存与普及传统 文化,同时还应为学术研究服务,即古籍数字化资源
高,作为古籍数字化核心技术的全文检索,系统在开
发过程中应加强古籍整理专业学者的深度参与,对文 献中出现的相关人名、地名进行必要的标注,同时在 数据库程序设计时也应尽可能由专业学者首先对准备 导人数据库的文献进行深度加工。系统要尽可能地为 用户提供更多的检索途径,除关键词检索、条件检 索、逻辑检索、模糊检索、组配检索外,还应增设能 够体现原书内容特点的,包括体裁、写作时间、事 件、图像等属性在内的智能化检索,满足用户的特定 需要。 4.4深度开发,提高研究支持系统功能 对古籍数字资源的开发不应局限于字频词频统 计、相关资料库的加载、研究辅助工具的配置和实 用工具的引入等方面,而要力求在统计的基础上做 出智能决策。比如,古籍的自动翻译、自动校勘、 古代诗文的即时自动朗读等。这样就使文献不再是 平面的、孤立的资料,而是成为一个立体的文化学 术信息知识库,一方面可使研究人员充分享受到现 代数字化技术给学术研究带来的便利,在资料的搜
中国国家图书馆的“碑帖菁华…‘敦煌遗珍”等特色
资源库,上海图书馆的“中国占籍善本查阅系统”, 南京图书馆建立的40多万条古籍书目数据库,香港 的迪志公司与北京书同文公司以及上海人民出版社共
同研制开发的“国家九五电子出版重点项目”——文
渊阁《四库全书》电子版,济南汇文科技开发中心研 制推出的《四库全书》原文电子版等资源。 李弘毅、陈阳、王敏等则分阶段介绍了古籍数字 化的发展进程。李弘毅从历史发展的角度,分析了数 字化建立的准备阶段、自动化实施的过渡阶段、自动 化发展的高级阶段等不同阶段古籍数字化发展的基本
需要,往往自行开发数据系统并制订相应的文件格
式。这就造成文件的格式繁多而不统一,大多都需要 自己单独的阅读器才能使用,不利于用户使用。此 外,目前的古籍数字化建设,还没有建立统一、规范 的机读目录格式,许多单位设计数据库时采用的标准
・19・
关于古籍数字化的概念,彭江岸从技术转化的角
万方数据
图书馆理论与实践 不一致,数据库无法进行交换,无法真正实现国家乃 至世界范围内的资源共享。 3.3数字化古籍资源的检索技术亟待完善 数字化古籍资源的检索系统是沟通广大信息用户 和数字化古籍资源的主要渠道,倘若没有一个好的检 索系统,古籍数字化只能是将纸质古籍文献单一的寄
展现。,,l鲥徐健、肖卓针对古籍数字化工作中大最繁难
汉字录入和显示困难的问题,从计算机汉字输入与显
示的基本原理人手,从五个方面提出了具体解决方
案,较好地解决了古籍繁难文字处理的难题。|16 1至于 文字录入技术,北京书同文公司制作“文渊阁《四库
识到古籍数字化理论问题的重要性,不再局限于单纯
的实践研究,这是古籍数字化研究的一项重要突破。 3亟待解决的几点问题 在取得突破性进展的同时,我们也清醒地认识 到,目前我国的古籍数字化建设在以下几方面仍有待 改进和完善。
缺乏整体规划,重复建设严重 我国古籍数量庞大,且往往分散各地。而古籍整
理出版规划并没有明确规定古籍数字化的规划问题, 古籍数字化工作基本上处于一种缺乏宏观管理和调控
古籍数字化的一种重要录入方式.从而创造出错字很
少的数字化古籍。 2.2理论方面 在20世纪80年代至90年中后期这10多年的发
的状态。开发单位各自为政,热点项目重复建设。冷
化”概念和性质的理论研究尚未出现。至上世纪9()
年代末.史睿在《论中国古籍数字化与人文学术研
究》一文中指H{:“古籍数字化的理论问题比技术问 题更为重要,因为一旦理论发生了偏差,技术越高 明,则解决方案越是难以成功。”fl引之后,越来越多 的研究者开始关注古籍数字化的理论问题。
构和公司在从事古籍数字化时,出于保护各自产权的
70年代末至20世纪80年代中期)、古籍数字化初步 发展阶段(20世纪80年代中期至20世纪90年代末 期)、古籍数字化规模化成熟阶段(20世纪90年代
末至今)=三个阶段概述了我国古籍数字化的主要发
展情况。…
2技术和理论两方面的研究突破 综观20多年的发展历程,我国的古籍数字化建 设在诸多方面取得了长足的进步,在技术和理论两方 面的研究更是有了突破性进展。 2.1技术方面 古籍数字化技术上的突破主要是字库问题的探索
门项目少有问津。例如,中围历史上规模最大的从书
《四库全书》,1998年一年内至少出现了3种光盘版,
造成了人力、财力、物力的极大浪费.这在很大程度 上阻碍了我国占籍数字化的发展进程。 3.2缺乏统一标准。文件格式繁多 目前的古籍数字化可谓是“繁花似锦”。有关机
展历程中,学者们的研究更多集中在汉字字符集、识 别及版面还原与全文检索等方面,关于“古籍数字
和文字录入技术的发展。2006年,刘博在伏规模古
籍数字化之汉字编码选择》一文中,分析了 ISO/IECl0646和Unicode对古籍数字化的重要意义, 探讨了以Unicode为汉字编码的古籍数字化的跨平台
作。”引由此可见.对于古籍数字化的基本概念,研
究者们还存在不同的认识,这是古籍数字化发展中所 必须经历的过程。但同时我们也应看到,研究者已认
综合评述
2009(9)
ห้องสมุดไป่ตู้
在较短时期内,唯一可期望实现的目标是相关开发公 司在开发这类系统时能够考虑并兼容其他文档格式, 例如方正德赛卉籍数字化系统方案中即可便捷地导入 DOC、PDF、CEB等格式的文件。㈨J而从古籍数字化 的长远目标来看,逐步建立并规范古籍数字化的元数 据标准是当务之急。这个标准至少应在以下几个方面 达成统一:版本的类型、年代、版式、字体;该文献 收藏于哪个或哪些图书馆;作者的姓名、朝代、生卒
图书馆理论与实践
综合评述
2009(9)
●朱锁玲, 包
平(南京农业大学人文社会科学学院,南京210095)
我国古籍数字化进展与研究述评
[关键词]古籍;古籍数字化;古籍 整理 [摘要]从古籍数字化的研究进展 和相关成果等方面对我国古籍数字化进展 与研究现状进行较为详细的梳理和介绍。 在此基础上指出古籍数字化研究在技术和 理论两方面的突破性进展,以及数字化建 设过程中亟待解决的,诸如缺乏整体规划 和统一标准、数字化古籍资源的检索技术 和研究支持功能有待进一步完善和提高等 问题,最后给出相关建议,旨在为进一步 研究提供参考。 [中图分类号]G250.76;G255.1 [文献标志码]B [文章编号]1005--8214(2009)09--0018--04 字化建设与交流情况做了概述。【63这些研究者认为: 台湾地区中文古籍数字化建设先声夺人,香港地区古 籍数字化建设成果丰硕,相比而言,大陆地区起步较 晚,且由于经济、技术等原因,大陆在起步阶段的成 果不明显。但近年来。大陆依靠丰富的文献资源和人 才优势,古籍数字化建设奋起直追,尤其是古籍光盘 数据库异军突起,陆续取得可喜成果。至于世界其他 地方中文古籍数字化建设情况,毛建军在《国外中文 古籍数字化资源概述》[7]和《欧美地区中文古籍数 字化概述》Is]中论述得较为全面。他详细介绍了国 外公共图书馆和科研院所图书馆中文古籍数字化资源 的开发与建设情况,以及“吉藤堡计划”“周易电林”
针对上文分析的目前我国古籍数字化建设亟待解
的问题,笔者提出以下相关建议。 4.1有效规划,注重开发特色资源 古籍数字化重复建设的问题已相当严重,很多学
者也已将其提上议程,但至今仍未能很好地解决,其
中一个重要原因就是,不少单位为达到一些硬性评价 指标,片面追求资源总量,不注重开发特色资源,导 致重复建设严重。因此笔者建议,一方面,应由相关 部门(如中国图书馆学会古籍整理专业委员会)来联 合从事古籍数字化的主要单位进行有效规划、合理分 工;另一方面,各主要单位要注重资源的特色化建 设,加强合作。由相关部门专门负责这一方面工作, 也可起到协调、督促开发部门对其数字化成果的有效 维护。
万方数据
图书馆理论与实践 特色;【lz!陈阳则将我国古籍数字化的发展经历划分为 古籍数据库检索系统、光盘版古籍、古籍网络化=三个 阶段;[t,3王敏按照古籍数字化的奠基阶段(20世纪
综合评述
度给I叶1如下定义:“古籍数字化就是利用数字技术将
古籍的有关信息转换成数字信息,存贮在计算机上,
从而达到使用和保护古籍的目的,,”【19j乔红霞则把古 籍数字化看作一项系统的1二作过程,她认为古籍数字 化就是“利用多媒体技术、数据库技术、数据压缩技 术、光盘存储技术、网络传输技术等手段把馆藏印刷 型文献、缩微型文献、音像型文献等传统介质文献转 化为数字化、电子化的光盘或网络信息的丁作,”20]
网页等专题网站和“国际敦煌项目…‘中美百万册书
数字图书馆计划”等同际合作开发建设的中文古籍数 字化资源。 陈立新、C9]孟忻、f—o]刘安琴[11]等分类型对国
我国的古籍数字化工作起步于20世纪80年代, 在90年代中期以后迅速发展,至今已走过20多年的 发展历程。这期间,诸多专家、学者对古籍数字化进 行了深入的研究和探讨,取得了一系列令人瞩目的成 果,但系统性和科学性略显不够,还没有一部专门讨 论古籍数字化的著作问世。本文对古籍数字化的研究 情况及T作进展做一概述,旨在揭示该研究的主要内 容及特点。归纳出存在的问题和不足,提出进一步研 究的建议和设想。 1研究进展及相关成果 在古籍数字化相关文献中,研究者从不同角度 对20世纪80年代以来古籍数字化的进程做了总结 和同顾。 吴家驹、…吴夏平、[:】郝淑东f31等分地区对中 国台湾、香港和大陆地区的古籍数字化进程进行了介 绍;潘德利对古籍网络资源的分布状况做了调查和统 计,以表格的形式列举了台湾、香港和大陆地区古籍 数字化的研究成果;…王立清等重点分析了港台地区 的古籍数字化现状;㈦毛建军则对海峡两岸的古籍数
3.1
全书》”电子版时,与清华大学合作完善了OCR技
术,并开发出与之配套的校对软件。这一尝试意味着 利用OCR技术扫描录人将成为一种重要的古籍录入 方式。但OCR技术扫描录入的局限为速度不够快, 处理大幅面的古籍比较麻烦,因此有学者指出,数码 相机拍摄可以克服这些局限。mj随着数码拍摄技术的 成熟及与之配套的校对软件的完善,数码拍摄将成为
存在电子设备上,增加了其存储方式而已,没有为古
籍的研究带来方便。全文检索是古籍数字化的核心技 术,全文数据库检索系统主要采用逐字标引形式,虽 然可以满足用户查全率的需要,但数以万计的检索结 果不可避免地影响了检索的效率。另外,古籍检索技
年、籍贯、著述;作品的作者、体裁、创作年代、字
数等。
4.3
完善全文检索技术,加强检索系统功能 鉴于目前古籍全文数据库检索系统的检索效率不
刘琳、吴洪泽在《古籍整理学》一书中对古籍数字化
做了动态捕述:“所谓占籍数字化,就是将古代典籍 中以文字符号记录的信息输人计算机,从而实现了整
理、存储、传输、检索等手段的计算机化。”n¨毛建
军在综合上述认识的基础上指出:“古籍数字化就是 从利用和保护古籍的H的出发.采用计算机技术,将 常见的语言文字或图形符号转化为能被计算机识别的 数字符号,从而制成古籍文献书目数据库和古籍全文 数据库,用以揭示古籍文献信息资源的一项系统工
相关文档
最新文档