档案图像处理模型研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用 , 档案图像处理的好坏直接影响到档案图像信息系统的质量, 因此对处理模型进行研究具有 重要意义. 通过对档案图像处理模型的现状进行分析 , 针对政府资源类档案, 指出档案图像处 理的要求, 提出一种档案图像处理模型. 该模型能够满足一般档案图像信息系统的应用要求, 可为档案图像信息系统的建设提供指导 . [ 关键词 ]档案图像处理; 档案图像信息系统 [ 中图分类号 ] TP391 [ 文献标志码 ] A [文章编号 ] 1673- 8012( 2010) 05- 0029- 04 研究档案图像的处理理论和方法具有重要意义.
- down #方案将档案图像分成几个不同的块, 如 档案标题行、 档案文字行、 档案图形区和档案表 格区等 , 然后从档案标题行和档案文字行中提取 文字信息, 这种方法对档案结构的层次信息依赖 严重, 但具有简单快捷、 对于特定格式的文档处 理非常有效的优点. ∀ bottom - up #方案首先检测 档案图像中的相连构件, 然后根据相对位置和大 小对相连构件合并, 以确定档案图像中的字词对 象 . 该方案缺点是比较耗时 , 优点是对具有单一 条状的文字档案具有优良性能 . 1 . 2 DIP 系统 1992年 , R. G. Casey 等人提出了一个智能 表格处理 系统 ( Intellig ent Form s P rocessing Sys te m, IFPS)
1 2
} . ( 1)
{ ∃l, ∃ r } = ! ∀ 其中,
i
=
{ !, !,
1 1 2 2
, !}
p q
{ ∀ , ∀,
, ∀} ! 2 是档案对
i
代表档案的具体结构 ;
i j *
象 # (i = 1 , 2 , {# }
i j *
, m ) 的 有 限 集 合, 且 #
=
, {# }
表示对象的再划分, 即一个对象 表示连接因
29
. 文献 [ 1 , 2] 进一步指出, 档案处理就是构造等 式 ( 1)所表示五元向量的一个过程 , 档案分析就 是提取 = ( # , # , , # ) 等式中诸元素的一 个过程 , 档案理解就是找出等式 ( 1) 中 , , ! , ∀
1 2 m
( Optical Character R ecogn it io n , OCR ) 处理 3 大功 能, 为客户提供集成检索和构件检索两种服务 . 原型中每个模块都是独立的, 可实现并行或流水 处理 . CDIP 的实验数据来源于 1 . 5TB 的美国国 家烟草档案数据库
2 . 1 档案图像处理面临的任务 纵览前面介绍的一些档案图像处理模型 , 它 们都是面向 具体应用 的, 应 用的目的 主要有两 个: 一是图像形式的信息检索 , 另一个是图像内 容的识别与利用 . 针对诸如工商企业登记档案、 国土房产资源档案和公检法案件档案等政府资 源类档案
[ 10]
. ∀ top
. IFPS 中存在两条并行的路径 , 一条
路径用于图像应用, 如检索、 显示和打印表格档 案 ; 另一条用于数据处理 ( Data Processing, DP )应 用 , 它处理表格中包含的信息. IFPS 包含表格模 型定义、 表格模型存储、 输入图像匹配、 输入图像 配准、 输入图像数据提取和差分图像存储 6 大模 块 , 提供了智能处理表格档案图像的途径 . 2003年 , E. Kava llieratou等人提出了无限制 手写体档案集成处理系统
表 1 档案图像处理要求 功能 倾 斜校正 要求 对扫描档案的广泛适应性 . 所有扫描档案 : 去噪和 截黑边 ; 质地良好的档案 : 增强 可读性 ; 印章 、 签名等档案 : 放大细节 , 抑制噪声 ; 图 像增强 证照档案 : 降低背景对 文字的影响 ; 双 面 印 字 档 案 : 解 决 透 影 ( shado w through) 问题 ; 历史老档案 : 解决印侵 ( b leed- through) 问题 . 页内压缩方案必 须具有 空间自适 应性 ; 图 像压缩 页间压缩 方案 是 降低 整个 图 像数 据 库 存储空间的主要手段 . 图像二值化 OCR 文字 : 有利于 OCR; 印章 、 签字等 : 有利于匹配和识别 . 提高识别率 .
[ 8]
, 该原
型的处理对象为大量的扫描档案, 档案中可能包 含诸如手写体、 标记 或者签名 之类的非 文本信 息 . 它具有标记识别、 签名识别和光电字符识别 30 2 . 2 档案图像处理模型 基于表 1所示的档案图像处理要求, 我们提
出图 1 所示的档案图像处理模型. 该模型包含档 案图像输入、 档案图像处理 ( DIP 流程 ) 和档案图 像输出 3 个主要环节 . 数码化后的档案以文件形 式暂存于外部存储器, 然后遵照行业标准, 应用 档案图像处理技术对输入档案图像进行处理 , 最 后将处理结果进行输出并存储于数据库中 , 供档 案利用者检索使用.
可以再划分为几个更小的对象 ; 接.
子的有限集合, 用 ∃l, ∃ r 分别表示左连接和右连 表示逻辑连接函数的有限集合 , 它指明档 ; ∀表示结尾对象的有限集合, ∀ 案对象的逻辑连接关系; !表示标题对象的有限 集合 , !
[ 基金项目 ] 重庆师范大学博士基金项目 ( 10X LB006) ; 云南省社会发展科技计划 ( 2009ZC 128M ) ; 重庆市教委科技项目 ( K J100623) . [ 作者简介 ] 杨有 ( 1965 - ), 男 , 重庆梁平人 , 博士 , 副教授 , 主要从事数字媒体处理和理解方面的研究 .
[ 15]
Βιβλιοθήκη Baidu
压缩后输出 .
[ 16]
图 1 所示的档案图像处理模型已在某市工商 企业登记档案信息系统中得到应用 , 经过数年 的运行, 结果表明它能够满足实际应用的需要.
3 结语
从 Yuan Y. T ang 等人提出的档案图像处理
图 1 本文的档案图像处理模型
模型中可以看出 , 档案图像处理就是对档案图像 施加一系列的操作和变换 ( 如图像增强、 图像复 原、 图像压缩、 图像分割、 图像融合和 图像理解 等 ), 以得到所期望的结果 . 它强调的是针对特定 的目的 , 对档案图像数据本身进行处理. 例如 , 为 能减少图像数据的存储量 , 就必须将图像进行图 像压缩 ; 为能消除某些系统或外部噪声的影响 , 就必须进行图像降噪、 图像平滑的变换 ; 为能突 出某些细节 , 可以进行图像锐化处理 ; 某些种类 的档案可以二值化并进行 OCR 操作, 以识别档 案内容 . 由于应用需求的千差万别和动态发展 , 档案图像处理模型也会不断变化, 其理论和技术 的研究也有待深入和完善 . [ 参考文献 ]
[ 14 ]
处理后再进行熵编码 ,
它可以节省大量的存储空间, 比直接采用二值扫 描具有更多的优点, 比如具有更好的去噪效果和 更好的断笔划处理效果等 ; 二是可以基于模板定 义相似档案图像集合, 经集合冗余压缩 ( Se t Re dundancy Com pression, SRC) 技术降低页间冗余 后, 再采用任意的单页图像编码技术实现压缩 ; 三是其余的 档案图像 , 直接 经单页图 像编码技 术
早在 20 世纪末, 随着计算机的普及和 Inter net的发展, 诸如工商企业登记档案、 国土资源房 产档案等政府资源类档案的数码化要求越来越 强烈, 档案 数码化成 为档案管 理工作的 历史必 然 . 随之而来 , 在数字档案信息系统中 , 为了实现 档案图像的检索与利用, 对档案图像的处理、 分 析和理解等技术的要求也变得越来越紧迫 . 纸质 档案数码化使档案的概念信息和载体物质分离, 档案信息获得了最大的自由与独立 , 借助网络技 术的发展 , 档案图像 信息系统 ( Docum ent I m age Infor m ation Syste m, D IIS)得到了广泛的应用. 在 DISS 建立过程中 , 档案图像的获取和处 理至关重要 . 由于数字化设备的热电现象可能导 致档案图像含有噪声; 由于人为操作, 批量生产 和劣质纸张等原因可能导致档案图像倾斜 ; 由于 页面大小和设备原因可能导致档案图像存在黑 边 ; 其它存在的问题还包括 : 双面档案存在透影 ( shadow - through) 问题, 历史老 档案存在 侵透 ( bleed- through ) 问题 , 档案本身和档 案页之间 存在大量数据冗余等问题. 这些问题都属于档案 图像处理 ( Docum ent I m age P rocessing, DIP ) 的范 畴 , 处理的好坏直接影响 到 DIIS 的性能 . 因此,
[ 9]
的过程 . 至于如何从档案的具体结构
i
.
中提取档案
[ 3- 5]
对象 # , 不少学者也进行了研究 . 其中最著 [ 4] 名的是 W ah l等人提出的 ∀ top- dow n#方案 和 F le tcher 等人 提出的 ∀ bottom - up# 方案
[ 5]
2 本文的档案图像处理模型
2010 年 10月 第 29卷 第 5期
重庆文理学院学报 ( 自然科学版 ) Jou rnal of Chongq ing U n iversity of A rts and S cien ces ( N atu ral Science Ed ition)
O ct ,
2010
V ol 29 N o 5
[ 6]
, 其对应的档案图像信息系统主要
实现档案图像检索功能. 这类系统中图像的主观 质量和检索性能十分重要 , 它关系到系统的生命 周期 , 良好的性能可使系统长期生存 , 不良的性 能可使系统很快被淘汰甚至不能投入使用. 根据国家档案局颁布的 ∃纸质档案数字化技 术规范 % (即中华人民共和国行业标准 DA /T 312005)的规定, 这类图像信息系统对档案图像的处 理主要涉及图像处理的底层操作和中层操作, 主 要内容包括图像倾斜校正、 图像增强、 图像压缩和 图像内容识别等, 图像处理的具体要求见表 1 .
档案图像处理模型研究
杨 有 ,尚
1
晋 , 杨华芬 , 余
曲靖
2
3
平
1 江北 400021 ;
(1 . 重庆师范大学 计算机与信息科学学院 , 重庆 沙坪坝 3 . 曲靖师范学院
400047 ; 2 . 重庆航天职业技术学院 计算机工程系, 重庆 655011)
计算机科学与工程学院 , 云南
[摘
要 ]经扫描获取的档案图像, 往往需要经过档案图像处理才能被档案图像信息系统所使
[ 收稿日期 ] 2010- 08 - 12
1 档案图像处理模型现状
1 . 1 理论模型 1994 年, Yuan Y. T ang 和 Seong - W han L ee 由如下五元向 , #
m
等人首先提出了广义的档案图像处理理论的基 本模型. 文献 [ 1 , 2] 指出 , 档案 量所定义: {# , # ,
的灰度分布范围 , 提供更佳的视觉效果 ; 细节增 强技术能够从局部上提升对比度, 对输出图像的 质量起到更好的补充效果. 在此基础上 , 引入噪 声限幅策略 , 结合档案图像的噪声特点 , 使得增 强细节的增强技术只增强图像细节而非噪声 , 从 而提高局部增强的效果. 在 D IP模型中 , 档案图像编码可以通过 3 个 途径实现: 一是相关规定中允许二值化的档案 , 经多阈值二值化方法
[ 7]
, 该系统包括页面倾
斜纠正、 线 段和字 词分割、 字 符出格 校正 ( slop correctio n)和字符倾斜校正 ( slant removal) 4 个模 块 , 其中除第 2模块外的其它 3 个模块采用了投 影轮廓 技术 与 W ig ner - V ille 分布 相结 合 的方 法 . 该系统 可以处理 文本行倾 角任意变 化的情 况 , 其算法已在欧洲 LE - 1 1802 计 划中的 AC CESS 系统中使用. 2006年 , S . Argam on 等人 在 ACM 第 29 届 年会上提出了复杂档案信息处理 ( Com plex Doc um ent Inform ation P rocessing , CD IP )原型