档案数字化加工方法.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
档案室、档案馆
馆藏档案扫描、数字化加工
整体解决方案
目录
八、还卷及数据备份提交 (15)
第三节质量控制方案和保证措施 (17)
一、加工质量保障措施 (17)
二、多环节,多层次的质量检查体系 (17)
三、阶段性验收与终验相结合的严格验收程序是质量控制的终级保
障 (19)
第四节安全保密控制 (21)
保密协议 (22)
第五节售后服务 (24)
项目背景
CD-ROM、
转换成电子文档,建立目录和索引,制作成电子文件,已是当务之急。
第一节数字化加工作业前期准备
一.数字化工作人员准备
1.甲方人员
职务:现场交接管理人员
人数要求:一名
专业要求:为学校档案馆负责档案管理工作的技术或管理人员。
职责范围:
①.负责与乙方的档案提卷和还卷等交接工作,协同甲方人员作好交接清单记录并签
字。
②.负责监督乙方规范化加工。
③.随时把握乙方加工进度并进行协调。
人员安排见表3-1
二
数字化工
作软、硬件准备
1.配备硬件数量及档次要视数据采集工作情况及数据量大小。
2.甲方提供PC机4-6台给乙方作为采集作业使用,其他硬件设备由乙方自行解决。
3.场地:甲方提供。
4.办公用具:甲方提供打印机(以实际用量为标准)﹑办公桌椅﹑档案资料的装订及打印机所用的全部耗材。
5.其他条件:提供电力和饮水。
软硬件准备详见表3-2
表3-2软、硬件配备列表
校对-1.
2.
扫描的要求、对需要修复的档案进行归并整理(如果发现破损严重,无法直接进行扫描的档案,应先进行技术修复、折皱不平影响扫描质量的原件应先进行相应处理后再进行扫描,发现破损严重的档案须立即报知项目相关负责人)制作卷内目录,
扫描文件抽取
3按照扫描处理量明确交接周期和档案交接量(双方项目负责人签字,以保在施
工过程中档案不损失、不丢失。)
4装订案卷应保证装订牢固,案卷整齐,卷内材料不松动,脱落,保持与原案卷
一致。
图二
二、标引着录
按要求将文件所需信息录入到软件数据库里,标引着录按照国家档案局有关标
准结合用户档案着录的具体要求进行。
1.
2.
低的档案,可视情况采取灰度和24位真彩色扫描。然后以黑白二值保存。
例:蓝底招生名册,此种档案长见为A3幅面、纸张很薄,底色与文字的分明度很低。实物档案查看时都显吃力,此种档案如果用黑白二值扫描,则会出现大幅暗面,文字显现不清;如果使用彩色扫描,文字部分明度很低。只有使用灰度扫描,效果相对好一些,如图三。扫描后的图像再辅以黑白二值保存,则最大限度的提高了图像质量,如图四。
图三灰度扫描效果图四保存为黑白值后的效果
3.分辨率:无全文检索需求的文档分辨率调整为200DPI最为合适。需要全文检索而做ocr识别的文档,黑白二值扫描分辨率最佳为400dpi,此分辨率下识别成功率最高。24位真彩色扫描分辨率标准为200dpi。
4.图像文件的大小:黑白二值扫描A3页面:20K—40K;灰度或彩色扫描A3页
面:100—150K。
5.如遇字间距和行间距过密、原件本身是复印件等字迹不清楚的情况,可适当
6
7
角、不清晰等情况,则进行重扫或补扫。
8.2检查扫描件是否合乎要求,扫描图像必须与原图页面一一对应,不得出
现颠倒、缺页、重页或错页情况,不能有遗漏、重复,扫错的现象
8.3扫描的页面内容居中显示,不可出现明显偏左或偏右的现象,正文内容、页眉、页脚、反面印章、附件、手写注释等信息完整;图像内容与书本面完全对应,
不得出现书页内容残缺或将旁边页面信息扫入本页的现象。(对图像黑边、偏斜、折角、不清晰等情况进行处理,以达到用户需求)
8.4纸张较差档案扫描方案:由于进行数字化的档案会有部分为历史档案,纸张质量比较差,对于这部分纸张质量较差的历史档案扫描,我们本着以下原则:
8.4.1保证档案安全。纸张较差的档案多为破损档案,对于破损档
案更应该在生产流程中加以特殊对待,不能造成二次破坏。保证档案的安
9.
1.逐张检查图像质量(包括黑边、折角、图像偏斜度、清晰度、失真度等进行检查,发现不符合图像质量要求时,应重新进行图像处理),档案顺序(页号)是否正确,有无漏扫、重张等情况(发现文件漏扫时,应及时补扫并正确插入图像。发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。)
2.纠偏:图像整体倾斜不得超过1度,不得出现图像的一部分倾斜或扭曲而影响
阅读的现象。如果档案页面存在部分倾斜的,以页面中标题纠正为准。
3去污:所有扫描留下的黑线、指印、阴影或污点都必须清除干净(在放大50%的情况下)由于印刷质量或纸张质量等造成的页面上有零星的污点和反面倒映文字污点比较多,如果在页面视图下看不清楚,或该污点嵌在文本行中无法清除,可以
不清除,但应尽量保证图像可读。
4可提高5
6
7
于100K
文件格式。
根据用户对识别率的要求,可选择性进行人工校对。进行人工校对和不进行校对
的优缺点对比:
1.不进行人工校对:其原理是在单层PDF的基础上利用计算机软件进行全文OCR 识别后生成双层PDF文件。从而激活了图片中所反映的文字,而达到提取文字和利