历史文献全文数字化--难点与解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大。由于中易公司自行开发了多种软 万7千多个汉字的限制,实现了对符合 和笔画,使用鼠标即可完成汉字的 件,仅8个人在短时间内就顺利地完成 ISO/IEC 10646:2003国际标准(同 输入。 了工作,令国图领导十分信服和满意。 Unicod二4.0)的7万个汉字的显示、
2003年9月12日国家图书馆与中 输入、编辑、打印及照排输出等功能。
机难以完成的翻拍底片功能。想成功翻
电视机的水平扫描频率一般是
4)对非纯平的屏幕,要注意屏幕 拍底片要注意两点:一是相机对焦距离
100Hz或50Hz,所以如果快门速度高 自身造成的图像变形。避免这种现象的 要够近,二是光源要适合。另外还有一
于1/100秒时,必然会出现快门与电视 方法是使数码相机离屏幕尽量远,同时 个不可或缺的拍摄器材,那就是亮度较
北京中易郑码新技术有限公司
都改变了一个模式。各学科、各行业均行的,广泛应用于近现代文献的数字化 (简称中易公司)长期从事中文信息全
应用信息科技作为辅助工具,以做到资工作中;一种是在7万甚至10万汉字过程处理技术的软件开发和标准汉字库
源共享,快速反映,及时沟通和跨国界范围内,对历史久远的古籍进行全文数的设计与制作,在汉字字库、中文输入
引证文献(4条)
1.毛建军 古籍数字化研究的回顾与思考[期刊论文]-国家图书馆学刊 2007(03) 2.龚娅君 古籍文献数字化建设的几点思考[期刊论文]-现代情报 2008(12) 3.龚娅君,刘春金 中文古籍数字化建设[期刊论文]-浙江大学学报(人文社会科学版) 2006(04)
4.张承华 网络环境下信息服务模式构建研究——以古籍数字化建设为例[学位论文]硕士 2007
—DIGITA函L &Mj, ICRO坚Gk RAp- 塑lL- IlC‘ IM避^A。 GIN‘ G芷业争 之7 彰
《郑码》荣获日内瓦国际发明金奖
历史支献舍支数字亿
一难点与解决方案
北京中易郑码新技术有限公司
信息科技的巨大影响力,在几年内 化有两种做法。一种是用字量在2万汉有专业技术才能解决。
将世界各国每一个层面的社会经济生活字范围内,利用OCR汉字识别技术进
实现海量数据的资源整合、管理、
到2万多汉字,无法支持对大字符集的 法实现7万字及7万字以上的超大字符 调度、存储。
检索:
集汉字的输入。
实现古籍样貌(全文)在IE上再
●常用的输入法只支持对2万多字
《郑码》是国家语委的专家认可的 现,版式还原阅读清晰,更是重要的检
的输入;
遵循汉字规范的中文输入法,获得了中 索点。
易公司正式签署了《地方志》数字化 就是说,全部7万个汉字能够在Mi—
遵循大字符集标准的数万个四字节
工程委托协议书。
cmsoft Office等字处理软件中使用;可 字符编码构成的文字内容,可以建库、
兼容多语种平台,既可运行在英文、日 索引、关联检索。可以实现:海量数据
文等Windows平台上,也可与世界30 的快速检索;四字节搜索引擎,支持对
画面不同步的情况,结果就是所得画面 使用长焦距:
强的灯箱。如果翻拍的是负片,要用反
上有水平的黑纹。一般来说,在使用低
5)不要使用闪光灯:
转颜色的功能把底片变为正常颜色。反
于1/100秒,高于1/50秒的快门时,
6)对于投影仪(包括幻灯机)投 转颜色后的照片通常都会有一点偏色,
因为它不是50Hz的整数倍,仍然会有 射的图像,因其亮度较低,要使用低速 因此要作大幅度的调校。如果是用Pho—
引用本文格式:北京中易郑码新技术有限公司 历史文献全文数字化--难点与解决方案[期刊论文]-数字与缩微影像
2005(1)
●版式复杂多样,难以实现自动还原; 国、英国和美国专利,获得日内瓦国际
提供易于阅读、研究的工具:对照
●很多历史文献不能采用OCR技术 发明金奖和世界华人发明大奖等多项奖 原图、在线《康熙字典》全文版、书
●数字化后的数据需具有良好的通 励,为中文版Windows预装输入法。
签、笔记、放大镜等诸多工具。
黑纹。快门为1/50秒或低于1/50秒 快门;
toshop,适度调整leve 1值,一般可作
时,则会好很多。 除此以外,还需要注意以下几点:
7)还有一个使用LCD的小技巧, 大部分的矫正。 就是在开始测光时,通过LCD观察屏
1)要根据屏幕的种类仔细调整白 幕,如发现LCD上有滚动的黑条,就
18 1曩字与 万蛐方舅_数200据5
●若自行造字,在Internet上难以
馆际共建共享。检索方法有:全文检 索、选定范围检索、模糊检索、二次检 索(结果集再检索)、关联检索。
数据共享;
输入法是数字方志项目的难点之
●对于异形异体字需要规范和管理; 一,也是中文信息处理技术的关键技
●常用的二字节搜索引擎只能检索 术。拼音、五笔字型等输入法都没有办
如果在阳光下拍摄,则最好使用斜平衡,选择最接近的设置,如果要求比说明选用的快门速度过高,需要降低。
射的阳光。阳光下拍摄也可以加用反光较高,可以使用电视台播出的测试图自
板,但要防止产生阴影。
定义白平衡;
2)将屏幕的亮度调到最大;
3)要保证周围没有其他光源,以
用数码相机还可以实现一般传统相
免影响图像的亮度、对比度和色温;
中的100万宇。《京畿地方志》中许多 由国家科技部IT领域首席科学家顾钧 输入法支持《康熙字典》所收集的47,
纸页泛黄,字迹不很清晰,版式各式各 教授亲任组长,目前已顺利完成。《中 000个汉字的输入。此输入法使用方
样更是复杂,不但字数多且难度也更 易汉神e》突破了当今电脑只能处理2 便,不需要学习,通过查询汉字的部首
种数量的汉字级都一样适用(2万、7
Unicode 4.0同)7万个国际标准编码
万、10万、至更多),编码规则不变,
汉字的外字,中易公司成功地进行了数
重码少。
字化,见图1。
这个项目在2001年列入《国家
中易公司同时还开发了《康熙部
试制的第二批是《京畿地方志》 973信息技术与高性能软件规划项目》, 首输入法》同《郑码》配合使用。此
字库的输入系统。输入后检索速度快, 在海量数据中可以进行快速提取。《郑
的高难度的试样,中易公司两天就出色
码》将汉字拆分为不同的部件(字
地完成了任务。令国家图书馆非常满意
根),再按照规则进行给码,完全符合
的还有:在这18页的“地方志”中,
国家语言文字规范,且具有通用性,各
有5个字是ISO/IEC 10646:2003(与
万方数据
—DIGTA—L&MjICRO鬯GRAP堕H1CDIGTAL MICROGRAPHlC型IMAGING馆at.业之彰 _-‘—_l孓7
数据交换打下基础。
多4码就能迅速地调用所有汉字的历史
难题,是目前唯一可以快速处理7万大
第一批试制的是18页的《武功县 志》。这是一批具有眉批、大小字穿插
总结数字方志项目,在全文数字化 多种主要语种共存。它全面地解决了处 IS0/IEC 10646:2003(Unicode 4.0)7
的过程中,主要有以下几个难点:
理大汉字符集的需要,也可以和国际互 万汉字的检索;可进行多库检索,支持
●大量的生僻字、异体字在现有系 联网联接实现全球浏览和检索。 统字库中不包括;
用性,兼容多语种平台,为全球浏览和
《郑码》解决了用26个通用键最
遵循XML标准,多种输出格式,
万方数据 20 矗字与___■2005
万方数据
历史文献全文数字化--难点与解决方案
作者: 作者单位: 刊名:
英文刊名: 年,卷(期): 被引用次数:
ຫໍສະໝຸດ Baidu
北京中易郑码新技术有限公司
数字与缩微影像 DIGITAL & MICROGRAPHIC IMAGING 2005(1) 4次
交流。数字图书馆和大型电子文献资料字化,在这种古籍全文数字化的过程检索系统、系统支撑环境三大领域处于
库的开发和建设,近年来已成为~个热中,技术难点多,主要集中在输入方国际领先水平。
门项目,得到了高度重视。
法、字库字容量不足、如何实现全文检
中易的《计算机全汉字处理系统
中国历史文献数量庞大,全文数字索和通用标准的文件格式几个方面,只集成》可以在计算机上输入、编辑和 坐业业业jk誊簟业业业业誊}斗亭船妊誊誊啦紫业业业誊业誊at-誓}业誊誊业警船业妇誓业坐妇螺业誊啦业g}业