碎纸片的拼接复原论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
碎纸片的拼接复原
摘要
本题旨在解决碎纸片拼接问题。在本题中我们使用 MATLAB软件,首先对图像进行数据化处理和标准化处理。
一:只有纵切情况,且所有的切口都切到了字,建立差和法检验模型,应用枚举法,用MATLAB计算任意两张碎纸片灰度矩阵中最左、最右列灰度值的差方和,将差方和最小的两张碎纸片拼接在一起.中间不经过人工干预。最后得到中英文碎纸片的排列顺序,从左到右依次为:
中文:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,11,06;
英文:03,06,02,7,15,18,11,00,05,01,09,13,10,08,12,14,17,16,04。
二:首先对中英文碎纸片分别提取行间距相同和英文字符三线分割后空白带宽相同的特征,根据这些特征我们初步筛选出可能处于同一“行”的碎纸片,为了不与原文中书写的字的“行”发生误会,我们称其为组,然后分别依次进行“组内调整和组间拼接”工作。中文文件拼接复原过程中采用差方法计算出关联度,然后利用改进的匈牙利算法选出全局中的局部最佳拼接,再结合人工干预,实现组内拼接和组间拼接;英文文件拼接复原与中文的略有不同,首先分析图像选出可能成为最左边的碎纸片,采用以相关系数法,,从而从左向右拼接,最后完成拼接复原。下面分别选取中英文碎纸片拼接复原后的第一行碎纸片的序号作为样品。按照从左到右的顺序:
中文:49,54,65,143,186,2,57,192,178,118,190,95,11,22,129,28,91,188,141;英文:191,75,11,154,190,184,2,104,180,64,106,4,149,32,204,65,39,67,147。
三:考虑到问题二中对英文碎纸片的拼接所提取的特征在大量数据时会
产生分组效果不佳的问题,采用新的方法重新提取行间距特征:靠近碎片底端最
近的一行中完整字母集中分布的最低点到碎纸片底端的距离。并在求解模型基础
上通过定义匹配错误率。建立利用双面打印文件的其中一面作为拼接面,另一面
作为验证面对分组结果交叉检验的拼接检验交互模型,从而有效完成并验证拼接
双面打印文件的拼接复原任务。
关键字:差方法匈牙利算法相关系数行间距特征拼接检验交互模型
1
一、问题重述
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机机术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件 1、附件 2给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。复原结果以图片形式及表格形式表达。
2. 对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。复原结果表达要求同上。
3. 上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有双面打印文件的碎纸片拼接复原问题需要解决。附件 5给出的是一页英文印刷文字双面打印文件的碎片数据。请尝试设计相应的碎纸片拼接复原模型与算法,并就附件 5的碎片数据给出拼接复原结果,结果表达要求同上。
二、问题分析
本题属于图像处理类问题。可以采用 MATLAB工具处理图像的灰度矩阵或二值矩阵。
问题一,问题要求我们复原碎纸机仅在纵切情况下破碎的纸片,分析附件中所给的碎纸片图像,发现经纵切后,所有的碎纸片纵切都有被切开的字,碎片没有只有空白的接口,而且碎纸片复原后上、下、左、右边框为白色。于是可以先找出所有纵切碎片中左边框或右边框为空白碎片的个数。在确立左边框后采用差和法依据该碎片右边界与其他碎片左边界的相关程度进行匹配拼接。
问题二,与问题一不同,问题二中既有纵切又有横切,常规的差和法不能满足碎片多,相关程度比较小的问题二的求解要求。此外,中英文的特征差别在碎片变小时也会逐渐突出,因此,文字特征提取、参考点的选取以及如何建立模型计算图片边界相似程度和求解至关重要。由于碎片中字与字之间有固定间距,可以采用合理的方法构建间距特征提取模型确定各行包括的碎片,对于行内 19 个碎片利用相关性检测得出表征碎片左右边界的相关系数大小是一种有效解决问题的方法。匈牙利算法是解决图论问题中的常用算法,此处对匈牙利算法加以改进可以方便的调整各行内碎片的连接形式。在确定各行碎片连接形式后再考虑上下边框、段间间距等因素进行行间的排列。
问题三,在第二问的基础上要求我们实现双面打印文件碎纸片的拼接复原,考虑到问题二中针对英文碎纸片的拼接所提取的特征,沿用问题二的求解思路,将英文碎纸片中的字母分割成三格,计算各格之间的比例关系即像素长度,从而确定英文字体的行间距。据此特征检测碎纸片之间的匹配程度,并加以拼接,我们考虑利用双面打印文件的其中一面作为拼接面,另一面作为验证面完成复原工作及对复原结果的检验。
三、基本假设
1、假设碎片是理想的,没有遗失和磨损
2、
假设图像数值化像素采样误差可以忽略3、假
设正反面文字是对齐的
4、假设对于同一个文件行间距是固定的
5、假设边距大于段间距,段间距大于行间距
6、
假设人工干预不会导致错误的结果
四、符号说明
D 最佳匹配值
Xj每行中某个碎纸片灰度矩阵的最右列
yj每行中某个碎纸片灰度矩阵的最左列
mi各行中第 i 个碎纸片二值矩阵中全为零的行pj每行某碎纸片二值矩阵中第 j 个行的所有值N 误差度量值
d 左边距,单位:像素
W 匹配准确率
K 一次分组后拼接面与检验面重复的碎纸片个数V 一次分组后拼接面与检验面包含的碎纸片个数