纸质档案数字化成果存储格式探讨

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

台州市档案学会2010年年会交流论文

纸质档案数字化成果存储格式探讨

温岭市档案局叶学政

纸质档案数字化,是指采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。目前,档案和电子文件登记备份工作正在全浙江省如火如荼地进行着,把纸质档案进行数字化,是登记备份工作的一项重要内容,它有利于保护库存档案实体安全,提高工作效率,降低档案利用成本等。

简而言之,把纸质档案进行数字化,主要基于两种目的:一种是为了备份保护档案实体。纸质档案数字化就是对纸质档案进行数字备份,以降低弥补纸质档案因意外损毁造成的损失,对档案进行数字化管理,还可以减少因对档案原件频繁使用而造成的磨损,确保档案实体安全。另一种是为了发挥档案的利用价值,使档案信息资源能准确、方便、快捷地提供利用,使可以公开的档案信息资源得到共享,以满足社会或行业对档案利用的需求。

从备份保护用途的角度考虑,纸质档案数字化注重数字化成果的图像品质,图像必须清晰、分辨率高,能够保持档案的原貌,但是图像品质越高,相对应的文件存储容量肯定也越大。从利用用途的角度考虑,纸质档案数字化注重数字化成果的利用效率,图像文

件不宜过大,否则影响网络传输时间和调用速度。这两种不同的用途对档案数字化的要求有所不同,在实际操作中,我们可以对数字化成果采取两种不同的文件存储格式同时进行保存,一种备份用途,一种利用用途,备份用途的采用大文件存储,利用用途的采用小文件存储。

备份用途的数字化成果存储格式的选择。

备份用途的数字化成果要求高品质,但是品质越高,存储容量也越大,存储成本和维护费用也相应增加,因此,我们必须在图像品质和存储容量之间找一个折中点。国家行业标准《纸质档案数字化技术规范》指出:采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG 格式存储。国家标准定得不高,作为备份用途,一般应采用灰度模式或彩色模式进行档案数字化加工,以更真实地显示档案的原貌。备份用途的数字化成果,可以采用的文件存储格式主要有TIFF、JPEG和JPEG2000等,目前,用的最多的是TIFF和JPEG 格式。

TIFF是一种非失真的压缩格式,它广泛地应用于对图像质量要求较高的图像存储与转换,有多种压缩方案可供选择。省档案局就提倡采用单页(多页TIFF兼容性较差)LZW压缩的TIFF格式存储彩色模式扫描的数字化成果,LZW压缩是一种减小文件大小的无损技术,用这种格式存储的文件图像质量好,而且即使经过多次编辑和重新保存TIFF(LZW压缩)文件,图像数据也不会受到任何损失,对一些珍贵档案的数字化用这种格式进行存储是绝佳的

选择。但是TIFF(LZW压缩)的缺点是存储容量大,笔者作了下测试,用300Dpi分辨率对多个A4幅面的纸质档案进行彩色扫描,采用单页TIFF(LZW压缩)文件保存,最大的TIFF文件存储容量16M,最小的也有1M,图像底色偏深的色彩丰富的TIFF文件存储容量偏大,图像底色偏白的色彩单调的TIFF文件存储容量偏小。笔者估算了一下,假如进行大批量的扫描,比如说扫描量有1000万页的话,按平均每页5M存储容量算,需要50T的存储空间,假如刻录成DVD光盘一式三份保存的话,大概需用光盘3.8万张,对如此多的备份光盘进行保管和维护是很困难的事。未来随着存储技术的发展和大容量光盘(比如蓝光光盘)的成熟普及,这个问题可能不复存在,但是在目前技术条件下,笔者认为大批量的数字化加工采用TIFF(LZW压缩)作为存储格式在存储硬件的支持上还有所制约。有人提议采用200Dpi分辨率的彩色TIFF(LZW 压缩)存储数字化成果,存储容量相对300Dpi的TIFF可以减少1半多,但是用200Dpi分辨率扫描A4幅面档案生成的图像规格只有1653×2338像素左右,笔者认为用于备份用途有点过小了,这是种无奈地选择。

JPEG是一种有损压缩格式,允许选择不同的压缩比率对文件进行压缩,优点是文件存储空间小,缺点是采用JPEG压缩会使原始图片质量下降,而且压缩比越大,图像质量就下降得越低,但是采取低压缩率(高质量)的JPEG文件也可以保证优异的图像质量。笔者作了下测试,用300Dpi分辨率对多个A4幅面的纸质档案进行彩色扫描,利用Photoshop cs2软件进行操作,保存JPEG文件

时把图像品质设为10,所得到的图像质量还是很不错的,跟TIFF (LZW压缩)格式的图像相差不明显,平均每个JPEG文件大小1.3M左右,这是一个可以接受的存储容量。笔者认为采用低压缩率的JPEG文件存储数字化成果在目前技术条件下是一种折中的选项。

JPEG压缩的TIFF文件,现在省内有不少地方都采用这种存储格式进行数字化加工。这种存储格式除了文件扩展名跟JPEG文件不一样之外,其它的图像品质、特征等方面几乎和JPEG文件一模一样,但是兼容性没有JPEG好,笔者认为与其采用这种格式,还不如直接采用JPEG好。

JPEG2000是JPEG的升级版,其的压缩率比JPEG高20%-40%左右,在颜色处理上,具有更优秀的内涵,同时支持有损和无损压缩,还可以方便地实现渐进式传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示,JPEG2000可以任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。JPEG2000相对JPEG优势明显,但它还未普及,在不久将来,JPEG2000或许会成为存储档案数字化成果的主要格式。

利用用途的数字化成果存储格式的选择和要求。

利用用途的数字化成果,对图像品质要求不高,图像分辨率适合屏幕即可,需采用多页存储格式,存储容量宜小,否则影响网络利用效果,可以采用的文件存储格式主要有PDF、CEB和Djvu等。

目前用的最多的是PDF格式,PDF文件格式是Adobe公司开发的电子文件格式,它可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,可以逼真地展现图像原貌,给利用者提供个性化的阅读方式。利用这种特性,我们可以将多个TIFF或JPEG文件合并转换成一个PDF文件,在网上提供PDF文件供利用者查阅。转换PDF文件时需做好4个方面工作:

1、OCR识别。需在网上进行全文检索的数字化成果,在转换PDF之前必须先做OCR识别,可用Adobe Acrobat软件批量处理,先把它保存成单页的双层PDF文件,再合并成多页PDF文件。

2、图像合并。即把单页存储的几个文件合并成多页存储的一个文件。笔者认为,合并时我们可以有挑选地进行合并,既然生成PDF的目的只是为了用于利用,我们何不干脆只把可以利用的挑选出来进行合并转换,诸如密级文件之类杜绝上网的档案干脆不转换,可以上网利用的档案也只挑选部分页进行合并,诸如收文处理纸和草稿件之类的内容在合并时进行剔除。这样既可以保证档案利用的安全性,又可以提高利用的效率。(备份用途用单页TIFF和JPEG而不用多页TIFF存储在这里得到体现)。

3、文件命名。用档号命名PDF文件名称。

4、文件优化。合并产生的PDF文件应当要进行优化处理,以大幅降低文件的大小。笔者作了下测试,A4幅面的PDF文件在优化时把参数设为150dpi、JPEG质量“中”压缩方式,优化处理后的PDF文件平均每页所占存储空间160K左右,图像质量在屏幕上观看跟优化前相比相差无几。

相关文档
最新文档