古籍数字化方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DESi拓展应用方案
古籍数字化方案
灿烂的中华文化是古籍数字化的源泉
我国具有五千年悠久的文明史,拥有灿烂丰富的历史文化宝库。

而古籍正是中国五千年文化积淀的瑰宝,代表着中华文化底蕴的汉语文古籍是中华民族悠久历史和古代文明的象征,维系中华传统文明的进步与传承,也是我国各图书馆馆藏的重要组成部分。

最近一项对国内22个公共图书馆和38个学术图书馆的调查表明:这些图书馆中藏有1400多万册古籍。

专家估计全国古籍藏量应当在5千万册上下。

天一阁藏书楼是我国现存历史最久的私家藏书楼,也是世界上现存最早的三个私家藏书楼之一,建于明嘉靖四十年至四十五年(公元1561—1566)之间,原为明兵部右侍郎范钦的藏书处。

于1982年被国务院公布为全国重点文物保护单位。

现藏各类古籍近30万卷,其中珍椠善本8万卷,尤以明代地方志和科举录最为珍贵。

近年来,我馆事业发展迅速,先后新增中国地方志珍藏馆、银台第官宅博物馆、麻将起源地陈列馆等处。

中国地方志珍藏馆收藏全国各级各类当代地方志6730多册,占总数的80%以上。

银台第博物馆展示了清代官宦人家的家居艺术和建筑艺术,获2000年度“全国博物馆十大精品陈列最佳创意奖”。

麻将起源地陈列馆以三维空间展示麻将的起源及与宁波的历史溯源。

建于二十年代的秦氏支祠以其独特的祠堂文化,精湛的民间工艺为游客所叹服,并列入第五批全国重点文物保护单位行列。

古籍数字化的意义
古籍都是不可再生的宝贵的财富。

正由于其弥足珍贵,普通的读者是不可能接触到这些稀世珍品,据国家图书馆善本部张志清副主任介绍,一部古籍每翻阅一次都会使它“折寿”60年。

另一方面,古籍由于年代久远,纸张极易风化粉碎、残破、变形、霉变,形成不可挽回的损失。

由于人为破坏和自然灾害,许多典籍早已荡然无存。

明代叶盛说:“夫天地间物,以余观之,难聚而易散者,莫书若也。


如何保护珍贵的历史文化典籍,如何使之走下神坛,让这些“昔日王榭堂前燕,飞入寻常百姓家”,让一般人能领略其博大精深;如何弘扬中华文化,让全世界的华人、汉学家方便了解研究中国的文学作品以及历史、军事和哲学;如何使文史研究工作者能够快速找到所需资料,提高他们的研究效率……是图书馆界和IT界的共同的心声和梦想,也是每一个关注民族文化的国人的梦想。

高科技手段被认为是目前保护古籍的最佳选择。

中国从1985年起,开始用缩微照相方式复制古籍,到目前已抢救了两万多种古代文书。

缩微胶卷或平片有经济、耐用等优点,一直是保存档案资料的一种有效手段。

但缩微胶片的使用需要专用设备,伴随而来的是难以管理和不易使用的缺点。

随着计算机技术的发展,古籍“数字化”也已经成为一种新的保护和利用的办法。

国际图联文献保护中心主任M·T·G瓦拉莫夫女士认为:“在较长的一段时期里,缩微技术和光盘、数字化技术之间不是谁会取代谁的问题,至少缩微技术还在发展,世界上不少图书馆仍在进行大规模的文献缩微计划,以美国报纸拍摄计划(USNewspaperProgram)为例,这项以国会图书馆为主体的计划,要求将美国及其托管领地出版的所有报纸实现缩微化”。

从技术的角度,缩微胶卷也为古籍的数字化提供方便、简捷的资料的来源。

古籍的数字化和上网,是中华优秀文明由纸张等媒质流传方式转为数字信息等现代方式传播的重要步骤,是对传统的中华文化传播和继承方式的革命。

古籍的数字化和上网,是互联网上中文信息完整性的重要保障,对确立中华文化在互联网上的整体优势地位和树立文化大国形象具有不可替代的地位。

传统古籍的数字化和上网还具有现实的价值,可以有效地解决古籍保存与使用之间的矛盾。

古籍通常是1911年以前抄写、出版的图书,包括民国时期出版的古人所著的线装图书,往往具有重要的史料价值和很高的文化价值。

许多古籍保存单位严格限制古籍的使用,以达到古籍保护的目的,但同时也使古籍的研究利用受到影响。

古籍的数字化和网上发布,使研究者可以在网络终端上浏览古籍,还能避免直接接触对古籍造成的损坏,能有效地解决古籍保存和使用的矛盾,为中外学者方便地研究古籍提供便利,对古籍研究工作必将产生巨大的推动作用。

4.1.2目前国内古籍数字化的现状
2002年4月16-20日,来自中、日、韩、英、美及澳大利亚等国图书机构和研究单位的近百位专家、学者齐聚一堂,参加了在北京嘉苑饭店举行的为期五天的“《永乐大典》编纂600周年国际研讨会”。

会上,中外学者回顾了600年间尤其是20世纪以来收藏、保护、研究《永乐大典》的状况,会议期间《永乐大典》的数字化问题成为与会专家最为关注、讨论最热烈的话题。

这次会议充分展示了国际上中文古籍的数字化的现有的技术水平和发展的前景。

目前我国古籍数字化的工作取得了一定的成绩,已经完成或正在进行的有关古籍数字化的项目主要分为全文本方式和图像方式两大类:
全文本方式数字化
电子版《四库全书》,由上海人民出版社、香港迪志公司、北京书同文公司合作开发,选用国际标准ISO/IEC10646(GB13000/Unicode)作为数字化的字符集,采用XML语言作为文献内容的标识语言,使用OCR技术实现图文数码转换,使用数据库加知识工具库多种信息关联的全文检索引擎。

书同文公司是大陆最大的致力于古籍数字化的公司,现拥有《四库全书》、《四部丛刊》、《康熙字典》的电子版。

目前在制作《永乐大典》和《历代石刻史料汇编》的全文检索版。

北京大学中文系《全唐诗》网上电子检索系统,由211工程资助、北京大学中文系李铎博士主持开发,历时一年完成。

该项目主体部分由《全唐诗》及《全唐诗补编》组成,辅助项由《乐府诗集》、《玉台新咏》、《文选》等组成。

参考类则由重要唐代史料《新唐书》、《旧唐书》、《唐才子传》、《历代诗话》、《唐诗纪事》等资料组成,共1700万字。

全部文献错误率控制在三万分之一以下(共五校),《全唐诗》文本控制在五万分之一以下(共六校)。

所有文献均使用Unicode内码,在Windows2000平台上,不需要任何转码工具,全球任何语言的操作系统均可在网上直接检索《全唐诗》及相关资料,并且兼容Windows9x,WindowsNT,Unix,Linux等平台。

检索系统由两个版面组成,一是浏览界面,它提供以原书为序浏览,浏览内容只限于《全唐诗》。

另一界面是检索界面,此界面是本系统的核心,可以检索全部资料。

主体部分除全文检索功能外,另有诗题检索、作者检索、体裁检索、音韵检索等功能,检索结果显示诗歌全文(以首为单位)、作者小传、诗文校注、诗歌体裁、原书页码、册、卷等。

“中国基本古籍库”光盘工程,由北京大学刘俊文先生主持,是北京大学的重点项目,1998年经全国高校古委会的批准立项,正式启动。

著名学者季羡林、国家图书馆馆长任继
愈担任编纂委员会主任,两院院士罗霈霖、工程院院士李国杰担任技术委员会主任,由北大方正技术研究院提供技术支持。

全套光盘库共500张,根据中国古籍自身的特点,参照国际通行的图书分类法分为哲科、史地、艺文、综合4个子库,20个大类,近百个细目。

范围涉及先秦至民国的重要典籍1万余种,每种典籍有1个通行版本的全文信息,另附1-2个珍贵版本的图像数据,预计全文20亿字,版本图像2千万页。

基本可以满足文史和其他方面研究者的研究需求。

适用于中、英、日、韩多语种操作平台,并提供多重检索功能。

用户只需懂得一些基本的电脑操作方法,就可在极短的时间内,查找所需的资料,每次检索均可在5秒内完成。

台湾中央研究院《汉籍电子文献》,始于1984年7月,前身是为开发二十五史全文数据库而成立的“史籍自动化计划”,现已完成的数据库,共约一亿两千万字,其中较大型的是二十五史、医药文献、明实录、历代史料笔记丛刊和十三经,这些数据库已包括中国唐代以前的大部份重要文献(道教资料除外);正在建设中的数据库多达一亿八千万字,准备逐步将宋代以下的重要文献数字化。

所有文献通过人工与机器共进行3次校对。

在制作技术上得到中央研究院计算中心的支持。

使用者可以在一秒之内,查到二十五史数据库中四千万字的任何字词。

“国际敦煌学项目”(The International Dun huang Project,简称IDP),旨在通过国际合作促进敦煌写卷的研究与保护。

由英国图书馆开发,开始于1993年。

项目计划逐步将全世界各国各收藏单位的敦煌文献数字化。

目前可在线查看英国图书馆收藏的3万余件中亚写本和印本文件,以及15000余件残卷的高质量彩色图片。

2001年3月,中国国家图书馆与英国国家图书馆签署五年合作项目,加入此项目。

中国国家图书馆国际敦煌学项目的数字化内容主要包括:1、馆藏敦煌文献数字化。

使用扫描图像展示写卷的全部内容——正面、背面,甚至没有文字的地方,图像的清晰度与看原卷没有区别。

同时使用国际敦煌学项目提供的专门设计的4D数据库详细描述写卷的物理性质。

2、研究论著目录数据。

包含四个专题书目数据库:敦煌吐鲁番学日文论著目录数据库;敦煌吐鲁番学西文论著目录数据库;敦煌文献研究论著目录数据库和敦煌吐鲁番学学者档案数据库。

3、中国国内散藏敦煌文献联合目录。

扫描方式数字化
国内图书馆界在古籍数字化方面也先后进行了大量的探索,积累了丰富的经验,为文明的传承和文化的传播,做出了不可磨灭的贡献。

中山图书馆1998年,中山图书馆借助缩微胶片扫描仪开始了缩微制品的数字化的建设。

扫描方法与纸质文献类似,在性能指标上要求缩微胶片扫描仪可以处理16mm,35mm 卷片、平片等缩微品,扫描和数字化处理的速度应达到国内外同类产品的性能要求。

选择了日本MINOL YA公司的microDAX3000电子影像系统(ugbrid imaging system)。

包括Ms3000缩微胶片扫描仪和Powerfilm电子影像处理软件,软件平台Powerfilm提供了简单易用的中文图像界面,将缩微胶卷转换成数码格式、以TIFF文件格式储存并自动生成有序的文件名,符合公共图书馆提供给读者检索的要求。

截止目前为止,我们已经完成约50万拍缩微文献(包括古籍和报纸)的转换。

上海图书馆上海图书馆收藏有古籍文献170余万册,其中包括古籍图书、碑帖拓片、名人手札、专人档案资料等,不乏许多稀世珍品。

1997年,上海图书馆启动了古籍数字化项目,1998年市政府对数字图书馆进行了专项投入,主要进行历史文献和特色馆藏的抢救性整理和数字化工作。

上海图书馆最早启动的项目是3223种馆藏善本的数字化工作,数字
化总量为130万页。

1999年是上海图书馆进行大规模数字化的一年,这一年一共进行了7个数字化项目,包括“上海图典”、“上海文典”、“点曲台”、“民国图书”、“古籍善本”、“中国报刊”、“科技百花园”等,总数据量将近200GB。

这些馆藏资源的数字化形成了数字图书馆的基本馆藏。

上海图书馆建立了一套古籍影像光盘制作及检索系统,该“古籍影像光盘制作及检索系统”包括两个部分:标引建库制作子系统和存储及检索子系统。

制作子系统由一台专用服务器(作数据库及打印服务器)连接一台激光打印机、6台扫描工作站(各配有奔腾主机和扫描仪,其中4台A3黑白扫描仪,一台A3彩色扫描仪,一台A4黑白扫描仪)、一台标引工作站和一台光盘刻录系统和组成;存储子系统由一台CD-ROM光盘库服务器、一台数据库服务器、一台大型(可存放725张光盘)CD-ROM自动换盘机及查询工作站,通过大楼布线系统与古籍阅览室中的4台检索工作站相联。

制作子系统基本实现了基于网络的自动工作流程调度管理,古籍文件通过5台扫描工作站扫描压缩后,先临时存储在各自的硬盘工作区中,由标引工作站建立索引,并校对已扫描好的数据;扫描的图象目前采用TIFF格式存储黑白图象,以JPEG格式存储彩色图象,压缩比至少为20:1;经过黑白扫描的古籍原文如有必要再经过彩色扫描,可自动替换;古籍粘签页与原书页分别扫描,经设定后在显示时可分别显示原页及粘签页。

古籍光盘的检索提供四种途径:书号、分类、书名和著者,检索到书目信息后可根据权限调出原文影像,影像显示具有放大、缩小、旋转、翻页及指定页等功能。

浙江省图书馆在浙图丰富的馆藏中,古籍善本独树一帜,通过几十年的努力,完成了大量珍贵文献的缩微拍摄工作。

浙江地方文献也是浙图富有个性的收藏,包括地方志、年鉴、统计资料、地图等具有地方社会、经济和文化积淀的大量文献,也成为了数字化资源建设的重要内容。

浙图投入了相当的人力,配备了先进的数字化设备,重点进行古籍善本缩微胶片数字化与地方文献的数字化工程。

先人留下的古老的文献利用现代最新科技,通过数字化焕发出了新的活力。

这些图书馆都在古籍扫描数字化方面进行了大量的工作。

4.1.3古籍数字化技术面临的新的要求
随着古籍数字化技术的发展和不断的应用,图书馆界、读者、社会公众对古籍数字化提出了更高更新的要求,如何不断地完善数字化的技术、提高数字化古籍的质量、保护各图书馆在数字化过程的劳动成果成为古籍数字化技术发展的新的要求。

存储格式
古籍的扫描技术(包括缩微胶片的扫描)是一项成熟的古籍保护的技术,既有操作方便、能够规模生产、真实再现古籍的原貌的优势和特点,也是很多图书馆数字化的主要手段。

但是以图像的方式保存古籍,已经受到越来越多的挑战,由于图像技术本身的特点也存在一些不如人意的方面,例如,图像格式不便于浏览,占用存储空间大,硬件投入大、不能全文检索等不足。

知识产权
很多业界人士认为,似乎古籍整理不存在知识产权问题,但是每个图书馆在古籍数字化的过程中都投入了大量的人力物力,耗费了工作人员大量的心血,如果不对数字化作品加以保护,任由其拷贝、复制、非经许可传播,那么,将极大的伤害图书馆进行古籍数字化的热
情和积极性。

另外,很多古籍文献都是孤本或珍本,是图书馆的“镇馆之宝”,通常“秘不示人”,其数字化复制品的非法扩散也会牵动很多图书馆的感情,其技术保护显得尤为重要。

数字化古籍的保护并不影响古籍文献的传播的方便性,也不妨碍读者的阅读的舒适性。

从长远来,更有利于读者欣赏到更多、更好的古籍资源。

古籍版式
文本化的数字化古籍是很大进步,具有检索、查找方便、摘录方便、存储空间占用小等优势,极大的便利了读者阅读、利用古籍。

美中不足的是,这些古籍都是纯文本的TXT文件、HTML文件或DOC文件,读者无法看到原汁原味的古籍原貌,也无法感受真实古籍排版的风格。

古籍整理有一个很重要的原则,就是要“整旧如旧”,即使在数字化的复制品种,保存其版本原貌也是非常重要的。

超大字库
从利用计算机技术开发古籍资源开始,困难就集中在建立古籍资源够用的大字符集上,《康熙字典》收录了四万七千零三十五字,《汉语大字典》收录了五万六千多个。

到目前为止,国际标准组织(ISO)制定国际标准时,共收集到汉字七万多字。

虽然目前已经有多种字库编码和产品,但“字库不够用”的问题仍是开发古籍产品的一大障碍。

目前全球中文使用三套内码:中国大陆、新加坡及东南亚地区使用国标码,简称GB码;香港、台湾和澳门地区使用BIG5码;北美、西欧华人使用UNICODE码。

三种中文内码使用的结果是互不兼容。

此外,GB码的最大缺陷就是字库不够用。

GB码的国家标准是GB2312,只收录6763个汉字。

至今中国大陆的许多应用软件,执行的仍然是这一国家标准。

因此,很多行业都感到字库不够用,文史资料的研究和利用者更是觉得“缺字”太多。

1995年国家颁布了一个新的汉字内码扩展规范:GBK(即国际扩展字库),收录21003个汉字。

GBK就是在保持GB2312的基础上,将其字汇扩充与ISO10646中的CJK(中国、日本与韩国统一编码汉字)等量,同时也包容了台湾的工业标准BIG5码汉字(13000个汉字),还为用户留了1894个码位的自定义区。

Windows操作系统从2001年起全面采用北大方正GBK字库,大大加速了中文信息交流的国际化和本地化,给中文信息技术的发展带来了新的契机。

作为中国最早从事中文字库开发的专业厂商,北大方正非常关注中文字库技术进步和中文印刷字体的发展,积极参与中国国家标准和国际标准化(ISO)组织相关标准的制订,如GB2312-80、GBK、GB18030、ISO/IEC-10646等。

为了进一步规范汉字的编码,国际标准化(ISO)组织对汉字做了扩充,这就是汉字EXT B,方正公司积极参加了编辑讨论工作。

2000年8月22日,公布的SuperCJK V10.2共包含70205字,也正是最新的方正超大字库的全部内容,即方正超大字库基本包含了中、日、韩、越的主要汉字。

方正超大字库,将极大地方便专业辞书和古籍的排印。

从字数上看,它目前包含《汉语大字典》的全部5万6千余字,已经扩展至64447字,并且前后端一致,所见即所得。

借助于配套的方正书版9.11古籍版及新典码输入法,可以免除大量的补字问题,降低劳动强度,提高工作效率。

古籍数字化项目的总体工作流程
步骤一、总体设计和资源部署
根据馆内资源的情况,对整个古籍数字化项目做总体设计,包括需要标引的字段检索点、古籍分类的方法。

总体设计时,我们可以借鉴北京大学图书馆古文献资源库等国内已经进入实施或者使用阶段的古籍数字化项目。

对所有古籍资源做古籍目录的整理,我们建议以精品为主导,目前国内的古籍数字化大多以数量取胜,实际使用效果往往达不到预期的目标。

古籍数字化也是一个漫长的、逐步积累的过程,不可能一蹴而就。

我们可以选择一些文字清晰的、真正有价值的、有特色的缩微胶片逐步地进行数字化。

经过几年的努力,我们就可以形成全文本的原版原式的古籍电子图书库了。

按照其重要程度排序,最重要最珍贵的资源开始制作时就按照原版原式重新排版加工成文本型电子文件,其他资源先保存成图象格式,可以放在网上发布,以后再考虑做文本化的工作。

另外针对此项目,需要调配多少人力,各负责哪些工作,需要在具体操作前统筹规划好。

步骤二、古籍资源的数字化还原
(1)录入重排方案
对于珍贵的古籍资源,要以文本形式还
原成古籍的原貌,才能体现数字化工作的价
值。

这里,我们推荐方正的书版9.11古籍专
用版软件。

书版采用批处理排版方式,具有
强大的文字处理功能,排版速度快捷,版式
多样,适用于期刊,一般图书、辞书,典籍,
科技类和文艺类等书刊以及办公文印的编
辑和排版。

支持彩色书刊、支持GBK编码
标准、支持超大字库,并可自动进行繁简/
简繁转换。

书版9.11具有自动提取目录,索引,排
序功能。

制作结果不仅可以制作成电子书,
还直接印刷。

对于排版制作好的结果文件,进入德赛
数据加工系统进行标引、分类等工作。

(2)扫描识别方案
对于一些历史年代较近,版面相对清
晰,易于识别的文献,我们建议可以用扫描+OCR识别的方式来数字化。

但是由于目前技术的瓶颈,对于版面不清晰的古籍资源,OCR识别效率非常低,所以从工作量上说与重新排版录入的方案差不多甚至更大。

因为,我们只建议对于部分版面质量较好的进行OCR识别的工作。

对于绝大部分的资源,只需要以图象形式保存的资源,建议只做扫描而不用去识别。

步骤三、数据加工
德赛数据加工系统可以根据图书馆需要创建古籍数据库结构和古籍专用导航分类。

该系统还集成了数据加工制作过程中从整理扫描文件顺序、格式转换、目录制作、元数据标引、分类、链接制作、一直到检查、发布的多项任务,同时能对任务进行分配,并对任务的完成情况进行统计分析。

DESi制作系统3.0的将所有数据进行统一的存储和管理,用户使用起来更加方便;既
适合多人的制作小组分别进行流水作业,也适合小型图书馆不分配任务一人独立完成全部任务的制作方式;多种选项的设置使得管理员使用起来更加得心应手。

DESi制作系统3.0不仅能处理扫描图书、电子文档,还能将多媒体文件链接进来,形成多媒体古籍资源库。

步骤四、加密发布
发布系统是将制作好的数据发布出来,供广大读者进行查询、检索、借阅,供管理员进行推荐、上架下架、下载量统计等多种管理的平台。

建议硬件方案
中端扫描仪:方正Z910扫描仪
产品说明
方正Z910是1万元以下档次扫描仪中
最好的一款,最大特点就是经济实惠,买同
样档次台湾的扫描仪,价格在2-3万元。


个扫描仪还可以扫描底片,普通135mm或
者120mm的底片都可以扫描。

此扫描仪扫
描时可以不用盖盖,减少对图书的挤压,避
免了对古籍的损坏。

产品描述
Z910采用2400dpi超高分辨率的CCD
元件,轻松捕捉极其细微的图像信息,最大
可以将图像放大到原尺寸的三十二倍,原稿
的所有细节信息都能完整再现,特别在进行实物扫描时,原物的质感将令您感到惊讶。

高清晰度图像的获得除了取决于CCD的高性能,镜组系统同样重要,Z910在镜组系统中配备了自动调焦功能,校正因长期工作而造成的镜头的焦距不准,保证CCD获取准确的光信号。

完美的图像品质
清晰的图像对于专业用户而言并不是所追求的全部目标,色彩还原的准确性和层次的再现能力相对更加重要,这方面Z910的表现同样杰出,其动态密度为3.4D,42位信号解析,在FounderScan中加载了专业色彩校正系统,完美的组合即便面对很高要求的原稿也能轻松搞定。

高效高能
FounderScan提供两种批扫描模式:多次多张扫描和单次多张扫描,在多次多张扫描模式下,您可以对每个扫描任务进行单独的设置,FounderScan会记录这些设置,在您按下扫描控制键后会逐个将这些任务按您的设定完成。

单次多张扫描模式则针对设置相同的多个扫描任务,您只要选好扫描区域,按下扫描键,Z910就会完成所有的工作。

火线和USB1.1双接口提供更多选择,IEEE1394接口的数据传递速度高达400Mb/S,对于高分辨率下扫描出的超大尺寸图像可以在极短的时间内传输至计算机,您将不再为漫长。

相关文档
最新文档