2013全国大学生数学建模竞赛国家二等奖论文 碎纸片的拼接复原

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
问题二,与问题一不同,问题二中既有纵切又有横切,常规的差和法不能满 足碎片多,相关程度比较小的问题二的求解要求。此外,中英文的特征差别在碎 片变小时也会逐渐突出,因此,文字特征提取、参考点的选取以及如何建立模型 计算图片边界相似程度和求解至关重要。由于碎片中字与字之间有固定间距,可 以采用合理的方法构建间距特征提取模型确定各行包括的碎片,对于行内 19 个 碎片利用相关性检测得出表征碎片左右边界的相关系数大小是一种有效解决问 题的方法。匈牙利算法是解决图论问题中的常用算法,此处对匈牙利算法加以改 进可以方便的调整各行内碎片的连接形式。在确定各行碎片连接形式后再考虑上 下边框、段间间距等因素进行行间的排列。
1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立 碎纸片拼接复原模型和算法,并针对附件 1、附件 2 给出的中、英文各一页文件 的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预 的时间节点。复原结果以图片形式及表格形式表达。
2. 对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并 针对附件 3、附件 4 给出的中、英文各一页文件的碎片数据进行拼接复原。如果 复原过程需要人工干预,请写出干预方式及干预的时间节点。复原结果表达要求 同上。
问题三,在第二问的基础上要求我们实现双面打印文件碎纸片的拼接复原, 考虑到问题二中针对英文碎纸片的拼接所提取的特征,沿用问题二的求解思路, 将英文碎纸片中的字母分割成三格,计算各格之间的比例关系即像素长度,从而 确定英文字体的行间距。据此特征检测碎纸片之间的匹配程度,并加以拼接,我 们考虑利用双面打印文件的其中一面作为拼接面,另一面作为验证面完成复原工 作及对复原结果的检验。
4
五、图像的预处理
5.1 数值化
由于目前的计算机只能处理数字信号,我们得到的照片,图纸等原始信息都
是连续的模拟信号,必须将图像进行预处理,即把连续的图像信息转化为数字形
式。可以把图像看作是一个连续变化的函数,这就要经过数字化的采样与量化。
图像采样就是按照图像空间的坐标测量该位置上像素的灰度值。方法如下:对连
关键字:差方法 匈牙利算法 相关系数 行间距特征 拼接检验交互模型
1
一、问题重述
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都 有着重要的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很 低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技 术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
碎纸片的拼接复原
摘要
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都 有着重要的应用。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术, 以提高拼接复原效率。在本题中我们使用 MATLAB 软件,首先对图像进行数据化 和标准化处理。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的 成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表 述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。 如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
03 06 02 07 15 18 11 00 05 01 09 13 10 08 12 14 17 16 04
续图像f(������, ������)进行等间隔采样在(������, ������)平面上,将图像分成均匀的小网格,每个小 网格的位置可以用整数坐标表示,于是采样值就对应了这个位置上网格的灰度值。
若采样结果每行像素为 M 个,每列像素为 N 个,则整幅图像对应一个 M*N 数字 矩阵。这样就获得了数字图像中关于像素的两个属性:位置和灰度。位置有采样
第三步:以上述碎纸片的右边界为依据,根据如下公式计算其他碎纸片左边 界与之的最小差方和 D
1980
D = min ∑ (������������ − ������������)2
������=1
得到其排列顺序,从左到右依次为 8,14,12,15,03,10,02,16,01,04, 05,09,13,18,11,07,17,00,06。
2013 高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模 竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模 竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮 件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问 题。
������������
每行中某个碎纸片灰度矩阵的最左列
������������
各行中第 i 个碎纸片二值矩阵中全为零的行
������������
每行某碎纸片二值矩阵中第 j 个行的所有值
N
误差度量值
d
左边距,单位:像素
W
匹配准确率
K
一次分组后拼接面与检验面重复的碎纸片个数
V
一次分组后拼接面与检验面包含的碎纸片个数
矩阵中的元素称为像素,每个像素都有 x 和 y 两个坐标,表示其在图像中的位置,
其值称为灰度值,对应原始模拟图像在该点处的亮度。量化后的灰度值代表了相
应的色彩浓淡程度,本题中我们使用 256 色灰度等级,“0”表示纯黑色,“255”
表示纯白色,中间的整数数字从小到大表示由黑到白的过渡色。
5.2 标准化
3
三、基本假设
1、假设碎片是理想的,没有遗失和磨损 2、假设图像数值化像素采样误差可以忽略 3、假设正反面文字是对齐的 4、假设对于同一个文件行间距是固定的 5、假设边距大于段间距,段间距大于行间距 6、假设人工干预不会导致错误的结果
四、符号说明
D
最佳匹配值
������������
每行中某个碎纸片灰度矩阵的最右列
点的两个坐标确定,也就对应了网格的行和列,而灰度表明了该像素的明暗程度。
应用 MATLAB 可以自然的得到如下形式的数字矩阵:
������(1,1) ⋯ ������(1, ������)
������ = [ ⋮

⋮]
������(������, 1) ⋯ ������(������, ������)
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行 公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表 等)。
我们参赛选择的题号是(从 A/B/C/D 中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1.
将图像数值化后的灰度值采用 256 灰度等级,“0”表示纯黑色,“255”表示 纯白色。由于图像在获取中灰度值将受影响,故我们需要对图像进行标准化。
5
六、问题一
6.1 模型的建立
1.灰度相关匹配 理论依据:如果是一个整体分裂成的两个碎片,那么两个碎片裂口对应的部
分的颜(对灰度图像而言,就是灰度信息)会有很强的相关性,这是碎片间除轮廓 信息外最重要的信息之一。灰度矩距离最短的两条边之间的相似性最高,相似度 最大的两边可以作为匹配边,同时排除其他干扰匹配对。 问题一中我们采用如下差方和公式:
3. 上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有双面 打印文件的碎纸片拼接复原问题需要解决。附件 5 给出的是一页英文印刷文字双 面打印文件的碎片数据。请尝试设计相应的碎纸片拼接复原模型与算法,并就附 件 5 的碎片数据给出拼接复原结果,结果表达要求同上。
2
二、问题分析
本题属于图像处理类问题。可以采用 MATLAB 工具处理图像的灰度矩阵或 二值矩阵。
可建立如下的模型流程图:
6
ຫໍສະໝຸດ Baidu
6.2 模型的求解及结果
1.求解过程 第一步:图像预处理,应用 MATLAB 软件将碎纸片图像转变为 19 个 1980*72
灰度矩阵。矩阵中元素值为 0 至 255,代表由黑到白的颜色变化,其中,“0”表 示纯黑色,“255”表示纯白色。
第二步:取出每个灰度矩阵的最左边一列,判断该列元素值是否全为 255, 若其值全为 255,即其最左边全为空白,则说明此碎纸片应在原文件的最左边。
问题一:只有纵切情况,且所有的切口都切到了字,建立差和法检验模型, 应用枚举法,用MATLAB计算任意两张碎纸片灰度矩阵中最左、最右列灰度值的差 方和,将差方和最小的两张碎纸片拼接在一起.中间不经过人工干预。最后得到 中英文碎纸片的排列顺序,从左到右依次为: 中文:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,11,06; 英文:03,06,02,7,15,18,11,00,05,01,09,13,10,08,12,14,17,16,04。
������
D = min ∑(������������ − ������������)2
������=1
其中������������表示单个碎纸片图像的灰度矩阵的最右列,������������表示其余任意一个碎纸 片图像的灰度矩阵中的最左列,D为最佳匹配值。 2.模型流程图
分析附件中所给的碎纸片图像,发现经纵切后,所有的碎纸片纵切都有被切 开的文字,碎片没有只有空白相接的接口,而且碎纸片复原后上、下、左、右边 框为白色,于是可以根据灰度值的大小判断出纵切碎片中左边框和右边框。如在 确立左边框后采用差和法,依据该碎片右边界与其他碎片左边界的相关程度进行 匹配拼接。
由于在仅有纵切情况下中英文打印文件字体特征基本相同,可以采用相同 的采取方法,因此此方法也同样适用于处理附件 2 中的英文文件碎纸片。
2.求解结果
表 1:中文碎片复原顺序表格:
08 14 12 15 03 10 02 16 01 04 05 09 13 18 11 07 17 00 06
表 2:英文碎片复原顺序表格
问题三:考虑到问题二中对英文碎纸片的拼接所提取的特征在大量数据时会 产生分组效果不佳的问题,采用新的方法重新提取行间距特征:靠近碎片底端最 近的一行中完整字母集中分布的最低点到碎纸片底端的距离。并在求解模型基础 上通过定义匹配错误率。建立利用双面打印文件的其中一面作为拼接面,另一面 作为验证面对分组结果交叉检验的拼接检验交互模型,从而有效完成并验证拼接 双面打印文件的拼接复原任务。
问题一,问题要求我们复原碎纸机仅在纵切情况下破碎的纸片,分析附件中 所给的碎纸片图像,发现经纵切后,所有的碎纸片纵切都有被切开的字,碎片没 有只有空白的接口,而且碎纸片复原后上、下、左、右边框为白色。于是可以先 找出所有纵切碎片中左边框或右边框为空白碎片的个数。在确立左边框后采用差 和法依据该碎片右边界与其他碎片左边界的相关程度进行匹配拼接。
2. 3. 指导教师或指导教师组负责人 (打印并签名):
日期: 2013 年 09 月 16 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2013 高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注
问题二:首先对中英文碎纸片分别提取行间距相同和英文字符三线分割后空 白带宽相同的特征,根据这些特征我们初步筛选出可能处于同一“行”的碎纸片, 为了不与原文中书写的字的“行”发生误会,我们称其为组,然后分别依次进行 “组内调整和组间拼接”工作。中文文件拼接复原过程中采用差方法计算出关联 度,然后利用改进的匈牙利算法选出全局中的局部最佳拼接,再结合人工干预, 实现组内拼接和组间拼接;英文文件拼接复原与中文的略有不同,首先分析图像 选出可能成为最左边的碎纸片,采用以相关系数法,,从而从左向右拼接,最后 完成拼接复原。下面分别选取中英文碎纸片拼接复原后的第一行碎纸片的序号作 为样品。按照从左到右的顺序: 中文:49,54,65,143,186,2,57,192,178,118,190,95,11,22,129,28,91,188,141; 英文:191,75,11,154,190,184,2,104,180,64,106,4,149,32,204,65,39,67,147。
相关文档
最新文档