四川档案资料数字化标准
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四川省档案资料数字化标准
本标准根据国家档案局《电子文件归档与管理规范》、《纸质档案数字化技术规范》制定,适用于四川省各级档案馆(室)的数字化工作,其它单位可参照执行。
第一章纸质档案数字化标准
1 基本术语解释
1.1 数字化指用计算机技术将模拟图像转换为数字图像的处理过程。
1.2 纸质档案数字化对普通(黑色字迹清晰)的油印、铅印、胶印等印刷件或复印件纸质档案进行数字化及应用的过程。
1.3 数字图像表示景物图像的整数阵列。一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。在矩阵(或其他)网络上采样一连续函数,并在采样点上将值最小化后的阵列。
1.4 连续色调静态图像以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字图像。
1.5 失真度对档案原件进行数字化转换后,在同等测试环境下,数字图像与档案原件色彩、几何、压缩算法等差值。
1.6 可懂度表示数字图像向人或机器提供信息的能力。
1.7 图像压缩清除图像冗余或对图像近似的任一种过程,其目的是对图像以更紧凑的形式表示。
1.8 分辨率指单位长度内图像包含的点数或像素数。
1.9 TIFF 标记图像文件格式。一种基于标记的无损(不丢失信息)压缩格式,用于在应用程序之间和计算机平台之间交换文件。因为它存储的图像细微层次的
信息非常多,图像的质量也得以提高,故而非常有利于原件为黑白档案的复制储存。
1.10 JPEG 联合照片专家组。一种丢失少量信息的压缩格式,尤其适用于屏幕和打印显示,支持所有主要的计算机平台和Web浏览器。JPEG格式文件小,影像质量多数情况下均可接受。考虑储存空间及传输效率,原件为彩色的档案可选此格式复制储存。
1.11 灰度值指进行灰度扫描时把图像由纯黑到纯白整个色彩区域进行划分的级数,编辑图像时一般都使用到8位,即256级灰度。
1.12 黑白二值图像是与彩色及灰度相对应的一种模式,黑白图在表示图像时只区分黑白二值,他把其它色彩根据其特性转换为黑白两种,因此形成只有两种颜色的图像。
1.13 LZW压缩 LZW压缩是一种比较复杂的压缩算法,其压缩效率也比较高。它的基本原理为:LZW把每一个第一次出现的字符串用一个数值来编码,在还原程序中再将这个数值还成原来的字符串。例如:用数值0x100代替字符串“abccddeee”,每当出现该字符串时,都用0x100代替,这样就起到了压缩的作用。LZW是无损压缩,因此它不会对图像质量造成损失。
2 数字化基本流程
纸质档案数字化的基本流程主要包括案卷整理、目录建库、批量扫描、数据处理、信息存储、检索利用等工序。
2.1 案卷整理
对需要扫描的案卷进行适当整理,做出标识。
2.2 目录建库
为数字化的档案检索而建立必要的目录数据库。
2.3 批量扫描
按照档案数字化具体任务的整体安排按计划分批次进行扫描。
2.4 数据处理
2.4.1 对扫描图像进行校对,确保图像完整无误,并视需要对有问题的扫描图像进行纠偏、去污、拼接等技术处理。
2.4.2 对裸数据进行验收前的相应处理,包括文件的格式转换、逻辑分盘处理、添加说明性文件,以及数据的挂接、检验、上载、质量检查和备份。
2.5 信息存储
根据不同的扫描图像选择适当数据格式、编码方式和存储介质对信息进行保存。
2.6 检索利用
按用户需求提供检索利用。
3 案卷整理
在批量扫描之前,按下述步骤对案卷进行整理,确保档案数字化质量。3.1 分件
3.1.1 把同一案卷中的扫描和非扫描分开。
3.1.2 在扫描件中将大图、照片插入指示页,便于扫描工序批量扫描,实际图像放在图像处理时进行重扫,替换指示页。
3.1.3 填写《数据加工过程处理单》(见附录A),对需要特殊处理的页,标识清楚。
3.2 分页
对批量扫描前的档案进行页号、件号的标注。如在标注中与原档案中的件数、页号不一致,应以此为准。
3.3 拆卷
去除档案中原来的装订物,以便后续扫描工作的进行。
3.4 装卷
按档案保管要求恢复原装订。
4 建目录库
4.1 目录著录
根据DA/T18确定档案著录项,并进行著录。
4.2 数据格式选择
所选定的数据格式通用,应能直接或间接与DBF文件格式或通过XML 文档进行数据交换。
4.3 目录输入
将著录好的目录输入计算机内,建立机读目录数据库。
5 批量扫描
5.1 扫描方式
纸质档案扫描可采用黑白二值图像和连续色调图像两种方式。5.1.1 页面为单色文字的纸质档案,宜采用黑白二值图像扫描;页面为多色文字图像的档案文件,可采用连续色调图像扫描。
5.1.2 字迹清晰、不带图片的档案材料,采用黑白二值图像扫描;清晰度较差或带有图片的档案材料,可采用连续色调图像扫描。
5.2 分辨率选择
5.2.1 单色页面档案文件,扫描分辨率—般建议选择100-200dpi。
5.2.2 彩色页面档案文件,扫描分辨率可选择100dpi以上参数值进行。5.2.3 大幅面档案文件,如工程图纸、报纸等尺寸超过A3的,可选用大幅面图像扫描仪(如AO)、大幅面数码平台、缩微照相后胶片数字转换,也可以采用小幅面扫描后的图像拼接。扫描分辨率应选择100dpi以上。
5.2.4 需要时可根据原件的清晰度适当调整扫描分辨率。如原件质量较差且尺寸较小,可适当提高分辨率;反之也可相应减少分辨率,增减的多少以扫描后图像按原尺寸显示后是否清晰为准。
5.3 特殊页面的扫描
5.3.1 粘贴页与表格
对于粘贴折页,可用大幅面扫描仪扫描,或先分部扫描后拼接;对部分字体很小、字迹密集的情况,可适当提高扫描分辨率,选择灰度扫描或彩色扫描,采用局部深化技术解决;对字迹与表格颜色深度不同的,采用局部淡化技术解决。
5.3.2 一般文本流程图
采用适当的分辨率扫描及局部深化技术,确保文本流程图清晰。同时采用不同设备满足文本流程图的扫描工作。
5.3.3 插图
采用高分辨率灰度或彩色扫描技术将插图与文字一起扫描,保证原来的页面布局和插图清晰。
5.3.4 照片
对于页面中有黑白或彩色照片的文件,采用JPEG格式扫描,确保照片清晰度,同时可避免图像存储空间过大。
5.4 文件命名方式
5.4.1 建立文件夹
扫描时文件夹的建立应按档案实体分级建立,其中的每—份文件也需要单独建立文件夹。
5.4.2 文件夹命名方法,以档案实体中的档号命名,一般为3位数,不足3位数的左边补“0”。