基于结构特征的碎纸片的拼接复原问题

合集下载

碎纸片的拼接还原研究

碎纸片的拼接还原研究

碎纸片的拼接复原摘要碎纸片的拼接复原是一门借助计算机,把大量碎纸片重新拼接成初始纸张的技术。

针对问题一,本文首先利用碎纸片图像灰度矩阵的边缘矩阵,建立了两个碎纸片之间的匹配度函数,求得了每一张图片之间左右边缘匹配度矩阵。

然后根据左边边缘位置的碎片的左边空白部分最多的特点,确定了左边位置的碎纸片。

接着根据拼接碎纸片的拼接复原时,所有碎纸片匹配度之和取极大值的原则,采用贪心算法,得到了所有碎纸片的初始位置,拼接复原了附件1和附件2中纸片。

针对问题二,由于附件3碎片数量太多,并且碎片的拼接复原,是一个以碎纸片总匹配度为目标函数的组合优化问题。

所以本文采用遗传算法将碎纸片的编号作为基因,并将基因均匀分成19段,按顺序每一段对应一个初始纸片列位置,进行了求解。

然后,根据边缘碎纸片某些边的空白部分多的特征,对初始基因进行了优化。

接着,根据碎纸片的黑色像素密度不同的特点,将碎纸片分成三类,根据同类纸片优先匹配的原则,对遗传算法的运行过程进行了优化,拼接复原了附件3和附件4中纸片。

针对问题三,随着碎纸片量的增多,计算量急剧增加。

在上述拼接复原碎纸片的基础上,又引进了同行位置碎纸片的上部(或下部)空白位置宽度相近的聚类思想。

先对每个类内部拼接,在合并所有类并做一次整体拼接。

由于时间有限,我们未能完成最后一次的整体的拼接,但我们会在比赛后继续探究。

关键词:边缘矩阵匹配度函数遗传算法聚类一、问题重述碎片拼接实际用途已经越来越广泛,传统上拼接复原工作由人工完成,碎片拼接的准确率较高,但效率很低。

并且当碎片数量很大时,人工短时间内拼接出来几乎是不可能的。

所以开发碎纸的拼接技术,以提高拼接复原效率已成为越来越多人的期望。

现在,在碎纸片是规则的情况下,题目要求我们在以下条件建立碎纸片拼接复原模型和算法。

1.来自同一页印刷文字文件(中文、英文各一页)的碎纸机破碎纸片(仅纵切)拼接复原,并将附件1和附件2复原。

2.对碎纸机既纵切又横切文件的情形,将碎纸片拼接完整。

碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终引言碎纸片的拼接复原是一项有趣且具有挑战性的任务。

无论是为了还原重要文件还是拼接有意义的图像,我们都需要使用各种技巧和方法来完成这项任务。

本文将介绍一种基于分析的碎纸片拼接复原方法,通过对碎纸片的形状、颜色和纹理等特征进行分析,最终达到拼接复原的目标。

碎纸片的特征提取在进行碎纸片的拼接复原之前,首先需要提取碎纸片的特征。

这些特征包括碎纸片的形状、颜色和纹理等。

形状特征提取为了提取碎纸片的形状特征,可以通过计算碎纸片的边界和角度来获得。

首先,使用图像处理技术,如Canny边缘检测算法,将碎纸片的边缘提取出来。

然后,使用霍夫变换来检测碎纸片的直线和角点,从而计算出角度和边界。

颜色特征提取碎纸片的颜色特征可以通过计算图像的颜色直方图来得到。

颜色直方图表示了图像中每个颜色的像素数量。

我们可以使用像素级别的颜色分布来比较不同碎纸片的颜色特征,并找到相似的碎纸片来进行拼接。

纹理特征提取碎纸片的纹理特征可以通过计算图像的纹理描述符来得到。

纹理描述符是用于描述图像纹理的数值特征。

其中,最常用的纹理描述符包括灰度共生矩阵(GLCM)和局部二值模式(LBP)。

通过计算碎纸片的纹理描述符,我们可以比较不同碎纸片之间的纹理相似度,并选择相似的碎纸片进行拼接。

碎纸片的拼接策略在完成碎纸片特征提取后,接下来需要制定碎纸片的拼接策略。

拼接策略将基于碎纸片的特征相似度和拼接的整体目标来确定。

相似度匹配根据碎纸片的形状、颜色和纹理特征,我们可以计算两个碎纸片之间的相似度。

一种常用的相似度计算方法是使用余弦相似度,它衡量两个向量之间的夹角。

通过计算碎纸片之间的相似度,我们可以找到最相似的碎纸片来进行拼接。

拼接顺序在进行碎纸片的拼接时,需要制定一个拼接顺序。

一种常用的策略是首先选择与已拼接部分最相似的碎纸片进行拼接,然后逐渐增加已拼接部分的面积,直到最终完成拼接。

拼接约束为了保证拼接的准确性,我们需要制定一些拼接约束。

碎纸片复原

碎纸片复原

关于碎纸片的自动拼接复原的数学模型问题摘要本文根据碎纸片内的文字特征、图片像素特征特点提出了基于文字特征的文档碎纸片自动拼接复原模型。

根据碎纸拼接模型提出了基于MATLAB[1]语言为核心的自动拼接算法,并用该算法的程序对碎纸机碎纸的实际例子进行了拼接实验。

对这类边缘相似的碎纸片的拼接,理想的计算机拼接过程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配。

然而由于理论和技术的限制,让计算机具备类似人类那种识别碎片边缘的字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。

但是利用现有的计算机技术,完全可以获取碎片文字所在行的几何特征信息,比如文字行的行高、文字行的间距等信息。

拼接碎片时如利用这些信息进行拼接,其拼接效率无疑比单纯手工拼接要高。

针对问题一,由于碎纸片数量比较少且只有纵向切割,采用比较简单的二值模型进行碎纸配对。

由于图像都具有三颜色RGB,扫描之后的碎纸片需要对其进行灰度处理得到一张灰度值图像,若定义原点之后,每一个像素点都具有X、Y坐标值,碎纸片的灰度值可构成一个二维矩阵。

二维矩阵的每一个元素都代表着碎纸片的特征值,根据图片每一个灰度值的大小即可判断出碎纸图片边界特性。

对于一个选定的纸片,将每一个待拼接碎纸片的二维矩阵的最左一列与其二维矩阵的最右一列进行差值比较,再求把所有的差值求和,生成一个相应的矩阵。

将该矩阵的最小值来作为相似度矩阵的判断条件,以此便可求出该图片是否能够成功拼接。

最后利用加权平均的融合方法进行图像无缝平滑,得到无缝拼接[2]图像。

针对问题二:根据附件3和附件4给出的碎片资料可以看出,碎片除了有纵向切割之外还有横向切割,这给单一的拼接算法带来了一定的困难。

本文根据图片的质量与清晰度可以将问题简化,将附录所给出的碎纸片用简单的算法进行分组归类,使得拼接问题变得单一化,先使用第一问的模型进行纵向拼接成11行之后,再以第一问的模型进行横向拼接。

碎纸片的拼接复原的数学模型

碎纸片的拼接复原的数学模型

碎纸片的拼接复原摘要本文主要采用了模糊模型识别、灰度相关、傅里叶变换等方法对碎纸自动拼接进行了深入探讨。

文中主要结合司法物证复原、历史文献修复、军事情报获取这一背景,针对横纵切碎自动拼接展开探究。

提出一种基于最大梯度和灰度相关的全景图拼接法。

同时采用边界提取法使图像预处理达到最好的效果,期间采用傅里叶变换对图像进行处理,最后再利用匹配准则等方法处理图像的拼接。

最终应用模糊模型识别法建立模型,通过隶属函数的建立实现最终的碎纸拼接。

期间有些碎纸片计算机无法识别,需要进行人工干预,从而才能得到一副完整的复原图。

图像拼接的主要工作流程可以概括为以下三个步骤:(1) 对图像碎片进行预处理,即对物体碎片数字化,得到碎片的数字图像。

(2) 图像碎片匹配,通过匹配算法找到相互匹配的图像碎片。

(3) 图像碎片的拼接合并,将相互匹配的图像碎片拼接在一起得到最终结果。

针对问题一:将图像导入MATLAB 进行相应的转化,由于数据量较大,所以对数据进行优化提取。

计算提取数据的均值与方差,找出其模糊集,建立符合题意的隶属函数。

由于模糊集的边界是模糊的,如果要把模糊概念转化为数学语言,需要选取不同的置信水平(01)λλ≤≤ 来确定其隶属关系,从而实现纵切图像的全景拼接。

(如表一、表二)针对于问题二:由于是横纵切碎纸片,所得图像较多,采用提取像素法对图片进行灰度分析,通过中介量阈值的确定来找出像素点的差别,梯度值在这一过程中也是作为衡量两张碎纸片是否匹配的标准。

从而对数据进行处理,最后导入MATLAB 软件实现拼接。

(如表三、表四)针对问题三:它是在问题一和问题二上加深了难度,采用提取像素点,傅里叶变换,灰度相关、模糊相似优先比等方法对问题进行分析,通过(0,1)矩阵的简化运算以及傅里叶变换得到最后的结果,但对于傅里叶变换需说明一点,变换之后的图像在原点平移之前四角是低频,最亮,平移之后中间是低频最亮,也就是说幅角比较大。

此过程中同时也需要人工干预,最终实现拼接。

数学建模碎纸片拼接复原题目

数学建模碎纸片拼接复原题目

数学建模碎纸片拼接复原题目《数学建模碎纸片拼接复原:一场奇妙的探索之旅》我呀,最近在学校里遇到了一个超级有趣又超级难的事儿,那就是关于数学建模里的碎纸片拼接复原题目。

这可不是一般的题目,就像是一个超级复杂的拼图游戏,但又比普通拼图难上好多好多倍呢!咱们先来说说这个碎纸片是怎么回事吧。

想象一下,有好多好多的碎纸片,就像被大风吹散了的树叶一样,到处都是。

每一片碎纸片都像是一个小秘密,它上面只有一部分的文字或者图案。

这些碎纸片有的边缘是平滑的,有的却是弯弯曲曲的,就像不同形状的小云朵在纸上飘着。

我和我的小伙伴们刚开始看到这个题目的时候,都瞪大了眼睛,嘴巴张得能塞下一个大鸡蛋。

“这可怎么拼啊?”我的小伙伴小明忍不住叫了出来。

我也在心里直犯嘀咕,这简直就像是要把散落在地上的星星重新组合成原来的星座一样困难。

不过,我们可没有被这个难题吓倒。

我们就像一群勇敢的小探险家,准备去解开这个谜题。

我们首先想到的是从碎纸片的边缘入手。

就好比我们在搭积木的时候,先找那些有特殊形状的积木块一样。

那些边缘有独特形状的碎纸片,可能就是我们找到拼接复原方法的关键。

我拿起一片碎纸片,上面有一点点像是字母“e”的半边。

我就大声地对小伙伴们说:“你们看,这个会不会和另一片能组成一个完整的‘e’呢?”大家都围了过来,眼睛里闪烁着兴奋的光芒。

小红说:“那我们快找找看呀!”于是我们就开始在那一堆碎纸片里翻找起来。

这感觉就像是在寻宝,每一片碎纸片都可能是宝藏的一部分。

可是,找了半天,我们发现事情并没有那么简单。

有好多碎纸片的边缘看起来好像能拼接在一起,但实际上它们的内容却对不上。

这就像你以为你找到了两块合适的拼图,结果发现上面的图案根本不是一回事儿。

我有点沮丧地说:“这也太难了吧,感觉就像在黑暗里摸东西,怎么也找不到正确的方向。

”这时候,聪明的小刚说话了:“我们不能只看边缘呀,还得看看纸片上的文字或者图案的内容呢。

比如说,如果一片碎纸片上有一个单词的开头部分,那我们就得找有这个单词结尾部分的碎纸片。

碎纸片拼接问题(2013B)

碎纸片拼接问题(2013B)

方法2:聚类算法:主要方法,效果好。
• 计算 Ai 的行和,得到一个特征向量 ri 。定义适当的 向量相似度指标,对 ri 进行相似度计算,然后对所有 碎片进行聚类,得到分行结果。
几种相似度度量指标:
1 欧式距离倒数: d ij || ri r j ||
夹角余弦: cos ij || r || || r || i j 相关系数: ij
规划方法:将每一行的碎片依次编号为 1, 2, , N . 定义两碎片之间的有向距离为 cij 。
令 xi ,k 1, 第 i 块碎片在第 k 个位置上 否则 0,
ห้องสมุดไป่ตู้
min z
N 1 N
c
k 1 i 1 j 1 , j i
N
ij
x i ,k x j ,k 1
c
MN
k ,l
x i , j , k x i , j 1 ,l

M 1 N MN
i 1 j 1 k 1 l 1 , l k
d
MN
k ,l
x i , j ,k x i 1 , j ,l
约束条件: (1)每个碎片只能放在一个位置上。
x
i 1 j 1
(1)整体的文字拼接正确度;
不易衡量。
(2)纸片两两之间的拼接正确度。
•如何计算纸片两两之间的拼接正确度? 分析:假设纸片 i 和 j 拼接在一起,i 左 j 右,则 应该可以计算出一个相关的正确度指标。 怎么计算?
• 利用什么信息计算? 利用Matlab 软件读取碎片,生成相对应的灰度值 数字矩阵 Ai 。
如何确定碎纸片的位置?
方法一:一次性确定所有碎纸片的位置。 方法二:分组确定碎纸片的位置。 方法三:逐一确定碎纸片的位置。

数模-基于特征点的碎纸片拼接复原算法研究

数模-基于特征点的碎纸片拼接复原算法研究

二、问题假设
1、假设每张图片的切口平滑 2、假设纸张每次放入碎纸机时都竖直平整,即来自同一页的碎片形状大小都相同。 3、假设不存在两张完全一样的碎纸片 4、假设相互匹配的两张图片的切割边灰度值相同 5、假设同一附件中的所有碎片均出自同一张纸且能拼成一份完整文件
三、名词解释及符号说明 3.1 名词解释
[1][2]
3
围和位置,从而实现图像拼接。 简易类拓扑: 简易类拓扑是基于拓扑学变换和性质,针对此实际问题提出的一种简化处理方式。 将所给每对碎片进行镜像翻转变化,即类拓扑变换——使任意碎片编号为 b 的碎片正向 拼接到想通过数字编号的 a 碎片右端,方便数据的整理和行高匹配结果的运算。 拆分比配法: 拆分比配是基于拓扑学性质和比值匹配法提出的一种针对问题三的一种优化算法。 由于从本质上,同一数字编号的 a、b 碎片仍是两张图片,内容上并不具有共通性,在 计算完行高匹配结果后,进行拆分,通过扫描匹配,获得顺序结果。 4.2 模型的求解 4.2.1 对问题一利用比值匹配法及 matlab 编程算法分析两两图片间的契合度 4.2.1.1 对附件 1 中图片数据进行处理分析 利用编程语言中的循环语句将附件 1、2 中的图片采取两两对比的方法,以附件 1 为例,如选取图片
201X 高教社杯全国大学生数学建模竞赛



我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参 赛规则》 (以下简称为 “竞赛章程和参赛规则” , 可从全国大学生数学建模竞赛网站下载) 。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网 上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或 其他公开的资料(包括网上查到的资料) ,必须按照规定的参考文献的表述方式在正文 引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有 违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展 示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等) 。

碎纸片的拼接复原数学建模论文

碎纸片的拼接复原数学建模论文

碎纸片的拼接复原摘要破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上,拼接复原工作由人工完成,虽准确率高,但效率很低。

特别是当碎片数量巨大,人工拼接难以完成任务。

因此随着计算机信息技术的发展,开发一个碎纸片的自动拼接技术,并建立简便的拼接复原模型,提高拼接复原效率,具有重要的实现意义。

文章通过对所给的附件图片数据进行分析研究,在综合考虑了碎片边缘的尖点特征、尖角特征、面积特征等几何特征下,我们将图片读入电脑,并进行二值化转换,考虑边界值的匹配,建立了图片边界匹配模型。

依据模型,只要边界能匹配上就可以拼接,并依次解决了如下问题。

对于问题一,由于给定图片来自同一页印刷文字文件仅纵切破碎纸片,针对附件1、附件2给出的碎片数据,建立了碎纸片拼接复原的边界匹配模型。

根据模型,我们首先对附件1、附件2中的图片用Matlab软件进行二值转化,得到一个储存图片的二值灰度矩阵,并利用边界相关性比较法判断矩阵中两边界变量是否能匹配得上,如果匹配得上就拼接在一起,按此算法,附件1、附件2中的碎纸片就能拼接成功,具体的算法结果见附录中的附件1、附件2。

对于问题二,由于碎纸机既有纵切又有横切的情形,算法的设计上要相对复杂一些,我们在前面模型的基础上进行了修改和补充,对图片的上下左右的边界都进行了边界提取。

首先,我们选将图片作二值转换,分别用矩阵进行保存,然后任迁一个,对其余的进行全程扫描,按照问题一中的边界匹配模型,逐一对其边界进行扫描匹配,其间,有些矩阵的边界数据可能一样(如空白时),我们便跳出模型,进行适当的人工干预,干预完成,再进入模型进行迭代,按此方法便可拼接成功,具体的算法结果见附录中的附件3。

对于问题三,根据现实问题中的双面打印文件的碎纸片拼接复原问题,由于多了双面的问题,在算法的设计上,我们考虑了正反两的边界匹配,在原有模型的基础上,将问题一和问题二的模型相结合,建立一个新的双面碎纸片拼接模型。

碎纸片的拼接复原.

碎纸片的拼接复原.

碎纸片的拼接复原摘要本文利用MATLAB软件将附件图像数字化,把图像转化为灰度矩阵进行处理。

问题一,本文利用边缘匹配模型和灰度匹配模型对碎纸片的边缘作分析。

基于,边缘部分的黑白分布越相近,两者相连的可能性越高的原理,得到附件1的排序是008,014,012,015,013,010,002,016,001,004,005,009,013,018,011,007,017,000,006 。

附件2的排序是003,006,002,007,015,018,011,000,005,001,009,013,010,008,012,014,017,016,004。

问题二,本文首先按行将小块进行分类,以简化模型。

在附件3中,将碎纸片分组,对分完组后的碎纸片采用字体矩形模型,实现同行间排序,将得到的行再通过匹配模型,从而拼出原文。

而对于附件4,本文建立四线格位置模型,将碎纸片进行分组。

计算过程中发现部分标号基线相同,但却与不同的行对应匹配,此时进行人工干涉。

然后运用行内匹配模型,对同行间的碎纸片排序。

附件3、附件4的排序结果见附录一。

关键词:灰度矩阵,匹配模型,相关性分析,三线格基线,人工干涉,最优化一.问题重述破碎文件的拼接一直以来都以人工为主,其准确度较高,但效率较为低下,不能承担短时间内完成巨大数量的碎片拼接任务,遏制了在司法物证复原、历史文献修复以及军事情报获取等领域的进一步发展。

随着计算机技术的发展,我们尝试运用计算机软件来实现对破碎文件的迅速拼接。

现问题如下:(1)、对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预,请写出干预方式及干预的时间节点。

复原结果以图片形式及表格形式表达。

(2)、对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

数学建模—碎纸片的拼接复原

数学建模—碎纸片的拼接复原

碎纸片的拼接复原模型摘要本文针对破碎纸片形状规则和碎片间无有效重叠区域等特点,选取了信息熵、差方和、欧氏距离、相关系数、互信息和灰色斜率关联度作为碎纸片之间的相似性判别准则,给出了碎纸片拼接复原模型和算法,解决了破碎纸片的拼接复原问题.对于问题1,引入信息熵来衡量每个碎片含有的信息量,将熵值最小的碎片确定为印刷文字文件的第一列;利用差方和计算出第1列右端与其余碎片左端的相似程度,求得碎纸片之间的最佳匹配组合,借助Matlab软件成功实现了附件1和附件2的碎片拼接复原.对于问题2,通过计算每个碎片的信息熵,找到印刷文字文件第一列的11个碎片;再利用互信息和相关系数评价碎纸片之间的相似性程度,确定出碎片间的上下位置关系,得到了印刷文字文件的第一列;然后利用欧氏距离作为相似性测度,进一步进行碎片间的粗拼接.若某个碎纸片与多个碎片的欧氏距离相等,则利用灰色斜率关联度进行碎纸片间的细拼接,借助Matlab软件完成了对附件3和附件4给出的碎片拼接复原.对于问题3,基于模糊聚类方法,粗略地确定出每个碎片的正面和反面;然后利用问题2的算法对已分类的正面碎纸片进行拼接复原;针对无法复原的碎纸片,借助Matlab 软件和最优搜索算法进行人工干预,确定出附件5文件正面的拼接复原;根据碎片数据编号的命名规则,在正面碎片数据的拼接复原结果中填充对应编号的反面碎片数据,实现了附件5文件反面的拼接复原.最后,对碎纸片的拼接复原模型和算法进行了分析和展望.关键词:破碎纸片的拼接复原;信息熵;差方和;互信息;欧氏距离;灰色斜率关联度;模糊聚类1. 问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用.传统上,拼接复原工作需由人工完成,准确率较高,但效率很低.特别是当碎片数量巨大,人工拼接很难在短时间内完成任务.随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率,需解决以下几个问题:问题1,考虑对于给定的来自同一页印刷文字文件仅纵切的破碎纸片的拼接复原模型和算法,并针对B 题附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原.如果复原过程需要人工干预,还需要写出干预方式及干预的时间节点.并就附件1和附件2的碎片数据给出拼接复原结果.问题2,考虑对于碎纸机既纵切又横切的情形,设计出碎纸片拼接复原模型和算法,并针对B 题附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原.如果复原过程需要人工干预,请写出干预方式及干预的时间节点.并就附件3和附件4的碎片数据给出拼接复原结果.问题3,则需要考虑更一般的情形,即考虑有双面打印文件的碎纸片拼接复原问题.对B 题附件5给出的是一页英文印刷文字双面打印文件的碎片,设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果.2. 模型假设(1) 碎纸片的切割是等间距的,忽略切割碎纸片时由机器工作所产生的摩擦误差; (2) 碎片切缝处的图像灰度平滑;(3) 碎片在缩放的情况下,像素点保持稳定; (4) 碎片上的文字只显示黑白两种颜色.3. 符号说明N :每张碎片像素点的数目;ij a 、ij b :图像A 、B 在()j i ,的像素值;),(B A SSD :A 与B 的差方和;)(a h A :图像A 中第a 个灰度级的像素个数与总的像素个数之比;)(ab h AB :图像A 中第a 个灰度级和图像B 中第b 个灰度级的像素对数与两幅图像总的像素对数之比;)(A H 、)(B H :图像A 和B 各自含有的信息量;)(AB H :两幅图像A 和B 的联合信息熵;ij d :两幅图像A 和B 的欧式距离;ij a 、ij b :图像A 和B 在 ()j i ,位置的像素值; a :图像A 像素值的平均值;),(B A C :两幅图像A 和B 的相关系数;)(a P A 、)(b P B :碎片边缘概率密度; )(ab P AB :两碎片A 和B 的联合概率密度;);(B A I :两碎片A 和B 的互信息;)(t X :系统特征函数;)(t Y i :相关因素函数;tt x ∆∆)(:系统特征函数)(t X 在t 到t t ∆+的斜率; tt y i ∆∆)(:相关因素函数)(t Y i 在t 到t t ∆+的斜率; )(t x ∆:系统特征函数在t 到t t ∆+的增量;)(t y i ∆:相关因素函数在t 到t t ∆+的增量; x :系统特征函数的均值;i y :相关因素函数的均值;)(t i ξ:)(t X 与)(t Y i 在t 时刻的灰色斜率关联系数;D :对称距离矩阵;i ε:)(t X 与)(t Y i 在t 时刻的灰色斜率关联度.4. 问题分析由于文章以行书写,只有段首段尾有空白,切缝处恰好以列之间的空白或笔画出断开的概率较小,在拼接碎纸片前需要对B 题附件1—5的碎片内图像进行二值化处理,进而获取由0和1组成的矩阵.扫描后的图像有亮的图像和暗的背景组成,由于光照、拍摄角度等因素,一幅图像往往包括文字、背景还有噪声等.如果从多值的数字图像中直接提取目标,最常用的方法就是设定阈值T ,用T 将图像的数据分为两部分:大于T 的像素群和小于T 的像素群.由于5个附件中的文字显示都是黑白颜色,因此先调用Matlab 软件中的im2bw()对每个碎纸片进行二值化图像预处理,然后综合利用图像的相似性测度寻找高精度的匹配碎片,从而实现整个印刷文字文件的复原.5. 模型的建立与求解5.1 问题1的求解5.1.1 模型的建立差方和利用两幅图像对应位置的差方和均值表示图像之间的相似程度,定义为[1],∑-=ij21),()(ij ij NB A SSD b a (1) 式中,N 为每幅图像像素点的数目,ij a 和ij b 分别是图像A 和B 在()j i ,位置的像素值.当两幅图像正好可拼接时,),(B A SSD 值最小.差方和计算的时间复杂度为()2N O .信息熵反映了图像含有的信息量大小.信息熵越小,图像包含的信息量越小,往往空白区域越多,其定义为[2-4]:∑=aA A a h a h A H )(log )()( (2)其中,)(a h A 表示图像A 中第a 个灰度级的像素个数与总的像素个数之比. 5.1.2 拼接复原算法附件1和附件2中碎纸片的切割方式只有纵切一种,假设碎片的总数为n 个.考虑到纵切的特殊性,给出如下的拼接复原算法:步骤1 计算每一个碎纸片)1(n i A i ≤≤的信息熵)(i A H ,并确定出熵值最小的一个碎片n i i A H 1)}(min{=为印刷文字文件的第1列;步骤2 计算第1列图像A 的右边与其余1-n 个碎片)1,1(≠≤≤j n j A j 的左边的差方和),(1j A A SSD ,确定出与第1列图像差方和最小的碎片为印刷文字文件的第2列;步骤3 重复步骤2,依次继续,直到找到印刷文字文件的n 列为止. 5.1.3 问题1的求解借助Matlab 软件对以上拼接复原算法进行仿真,得到如下结果: (1) 附件1中的中文文件复原结果表1 附件1中19个碎片的信息熵从表1可以看出,19个碎片所包含的信息量中,第008碎片的信息熵最小,因此第008碎片是附件1中的中文文件的第1列.表2 附件1中19个碎片之间差方和最小的配对碎片表从表2可以得到附件1中的中文文件复原结果,如下表所示:表3 附件1中文件的拼接复原结果表附件1中的中文文件复原图结果见附录1.(2)附件2中的英文文件复原结果表4 附件2中19个碎片的信息墒从表4可以看出,所有19个碎片所包含的信息量中,第003碎片的信息墒最小,因此第003碎片是附件2文件的第1列.表5 附件2中19个碎片之间差方和最小的配对碎片表从表5可以得到附件2的英文文件复原结果,如下表所示表6 附件2英文件的拼接复原结果表附件2中英文文件的复原结果图见附录2.5.2 问题2的求解5.2.1 模型的建立由于互信息测度是从图像的统计信息出发,既不需要两幅图像的灰度关系,也不需要图像进行预处理,因此成为目前广泛使用的图像配准相似性测.在图像配准过程中,如果两幅图像精确匹配,互信息达到最大.联合熵定义如下[5]:)(log )()(,ab h ab h AB H AB ba AB ∑= (3)其中)(ab h AB 表示图像A 中第a 个灰度级和图像B 中第b 个灰度级的像素对数与两幅图像总的像素对数之比.互信息定义为)()()();(AB H B H A H B A I -+= (4)欧氏距离被视为两个图像的相似程度,距离越近就越相似,其定义为∑-=2)(ij ijij b ad (5)相关系数是标准化的协方差函数,当两幅图像的灰度之间存在线性畸变时,仍能较好的评价两幅图像之间的匹配性程度.图像的相关系数1),(≤B A C ,它是两幅图像A 和B 特征点之间近似程度的一种线性描述.如果),(B AC 越接近于1,两幅图像的相似程度越大,越近似于线性关系.选择相关系数中最大的相关系数所对应的特征点为这个点的匹配特征点.当两幅图像可匹配时,相关系数达到最大值.相关系数定义如下[7-9]:2/122))(*)(()(*)(),(∑∑∑----=b b a a b b a bB AC ij ij ijij ij(6)两幅图像相关系数计算的时间复杂度为)(2N O ,其中N 为每幅图像像素点的数目. 灰色斜率关联度的基本思想是根据待拼碎片的特征曲线(称系统特征函数)与参照碎片的特征曲线(称相关因素函数)的相似程度来判断其联系是否紧密,曲线越接近,关联度就越大,反之就越小.灰色斜率关联度的定义为[10]:∑-=-=11)(11n t i i t n ξε (7) 其中,t t y yt t x x t t x x tt x x t i i ∆∆-∆∆+∆∆+∆∆+=)(*1)(*1)(*11)(*11)(ξ (8)为灰色斜率关联系数.(7)、(8)式中)(t X 为系统特征函数,)(t Y i ()m i ,,2,1 =为相关因素函数(对应于参照碎片的特征曲线),∑==nt t x n x 1)(1,)()()(t x t t x t x -∆+=∆,t t x ∆∆)(为系统特征函数)(t X 在t 到t t ∆+的斜率, ∑==nt i i t y n y 1)(1,)()()(t y t t y t y i i i -∆+=∆, t t y i ∆∆)(为相关因素函数)(t Y i 在t 到t t ∆+的斜率.对于灰色斜率关联系数)(t i ξ公式(8)有如下性质[11-13]:(1) 任意的系统特征函数)(t X 与相关因素函数)(t Y i 的灰色斜率关联系数满足:1)(0≤<t i ξ,m i ,,2,1 =;(2) 灰色斜率关联系数)(t i ξ满足对称性;(3) 灰色斜率关联系数)(t i ξ只与)(t X 与)(t Y i 的几何形状有关,与相对位置无关; (4) )(t X 与)(t Y i 的斜率越接近,灰色斜率关联系数)(t i ξ就越大;(5) )(t X 与)(t Y i 在t 到t t ∆+的变化速度相同时,它们的斜率相等,这时1)(=t i ξ; 由上述公式及性质可知,灰色斜率关联系数反映了两曲线在某一点的变化率的一致程度,而灰色斜率关联度则是整个区间上灰色斜率关联系数的平均值.灰色斜率关联度i ε具有下列性质: (1) 10≤<i ε;(2) i ε只与)(t X 与)(t Y i 的变化率有关,而与它们的空间相对位置无关; (3) 当)(t X 与)(t Y i 变化率相同时, 1=i ε; (4) )(t X 与)(t Y i 的变化率越接近, i ε就越大;5.2.2 拼接复原算法附件3和附件4中碎纸片的切割方式有纵切和横切两种,假设碎片的总数为n 个(m ⨯k 个碎片组成整个原图),具体的拼接复原算法如下:步骤1 计算每一个碎纸片)1(n i A i ≤≤的信息熵)(i A H ,并确定出熵值最小的m 个碎片n i i A H 1)}(min{=为印刷文字文件的第1列的m 个碎片;步骤2 计算步骤1找到的m 个碎片的上半部图像和下部分图像之间互信息和相关系数,确定出m 个碎片的上下位置关系,得到印刷文字文件的第1列;步骤3 计算第1列中m 个碎片右边与其它碎片左边的欧氏距离,得到碎片之间关于欧氏距离的矩阵n m M ⨯;在矩阵n m M ⨯中,第i 行的值ij d 表示第i 个碎片与第j 个碎片之间的欧氏距离.步骤4 在n m M ⨯中,计算第)1(m i i ≤≤行的最小值i min ;若n m M ⨯中i min 在第i 行出现的次数为1且对应的列标为j ,则第i 个碎片和第j 个碎片是最佳匹配组合;若i min 在第i 行出现的次数为大于1,则进行步骤5.步骤5 i m i n 在i 行中出现的次数为大于1,则计算第i 个碎片的右边图像与其余碎片左边图像的灰色斜率关联度)1(n f if ≤≤ε,记灰色斜率关联度最大的值ih ε对应的列为k ;若第k 个碎片在步骤4的最佳匹配组合中没有出现,那么第i 个碎片和第k 个碎片是最佳匹配组合;若第k 个碎片已在步骤4的最佳匹配组合中出现过,选择灰色斜率关联度仅次于ih ε)(ih iy εε<的值对应的列y ;若第y 个碎片在步骤4的最佳匹配组合中没有出现,则第i 个碎片和第y 个碎片是最佳匹配组合,否则继续寻找第i 个碎片的最佳匹配碎片,直止找到满足斜率关联度最大且在以前的最佳匹配组合中没出现条件的碎片.步骤6 重复以上步骤,直到所有的碎片找到最佳的匹配组合为止.按照最佳匹配组合的关系将所有碎片链接起来,并在第1列中出现的碎片位置出换行,便可对文件的所有碎片数据进行拼接复原. 5.2.3 问题2的求解运行matlab 软件对以上算法进行仿真,得到如下的结果.(1) 附件3中的中文文件复原结果表7 附件3中碎片的排列序号附件3中文件的最终复原图见附录4.(2) 附件4中的英文文件复原结果附件4的复原结果表格形式如下表所示:表8 附件4中碎片的排列序号附件4中文件的最终复原图见附录6.5.3 问题3的求解5.3.1 模型的建立模糊聚类分析是一种将样本或者变量分类的统计方法,基于物以类聚的思想,它根据样本数量计算样本之间的距离(相似程度),按距离的大小,将样本或变量逐一归类,关系密切的类聚到一个小的分类单位,使同一类的对象之间具有较高的相似度,然后逐步扩大,使得关系疏远的类聚合到一个大的分类单位,知道所有的样本或变量都累计完毕.模糊聚类分析法常用的距离为绝对值距离和欧式距离,其中,欧氏距离在聚类分析中用的最广.计算流程如下[14-15]:(1) 将n 张碎纸片分为n 类,取其中一个碎纸片右侧一列和另外任意碎纸片左侧一列作为样本,两个样本之间的距离构成一个对称距离矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=00021221112 n n n n d d d d d d D (2) 选择)0(D 中的非对角线上的最小元素,设这个最小元素是pq D ,此时{}p P x G =与{}q q x G =的距离最近,将q P G G 和合并成一个新类{}q P r G G G ,=.在)0(D 中消去q P G G 和所对应的行与列,并加入由新类r G 与剩下的其他未聚合的类间的距离所组成的新的距离矩阵)1(D ,它是n-1阶方阵;(3) 从)1(D 出发重复(2)的做法得)2(D ,再由)2(D 出发重复上述步骤,直到碎纸片聚成一个整体,聚类完成. 5.3.2 拼接复原算法附件5的碎片均为双面,假设碎片的总数为n 个(m ⨯k 个碎片组成整个原图的正面),具体的拼接复原算法如下:步骤1 基于模糊聚类分析法的思想,借助Matlab 软件编程将所有碎片区分粗分为正面和反面两大类;步骤2任选某一大类的碎片,利用问题2的拼接复原算法对该类的碎片进行拼接复原;步骤3 对无法拼接的碎片进行人工干预,直至所有的最碎片找到最佳的匹配组合为止.将所有的碎片进行链接,可复原文件的原图.根据碎片编号的命名规则,如果一面的原图复原成功,选择原图每个碎片对应序号的反面,可直接拼接复原出反面的原图.5.3.3 问题3的求解运行matlab软件对以上算法进行仿真,得到如下的结果.(1)附件5中的文件正面复原结果附件5中的文件正面复原结果见表9.附件5中文件正面的复原结果中间图见附录7.附件5中文件正面的复原结果中间图见附录8.对附录8中的碎片49a、161b、108b、045b、021a、042a、048b、180b、041b、202b和175b进行人工干预,得到附录9。

碎纸片的拼接复原

碎纸片的拼接复原

碎纸片的拼接复原班级:一班成员:陈腊梅:1109401010 蔡越萍:1109401004 游露:1109401041一、背景破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。

特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。

随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。

二、问题分析文档碎片的边缘形状对拼接复原的结果有着重要的影响。

常见的计算机拼接方式一般先考虑边缘的尖角、尖点及面积等特征,在利用碎片边缘的几何特性搜索与之匹配的相邻的碎纸片。

而问题中所给出的碎纸片均由碎纸机有规律的纵切、横切,使得来自同一页的破碎纸片均有相同的大小和规则的边缘形状,所以基于边界几何特征的方法并不适用于这种边缘形状相同的碎纸片。

针对附件当中既有汉字,也有英文的情况,在拼接时就要考虑碎纸片内文字内容的匹配情况,然而计算机在短时间内具有人工拼接时识别及理解文字图像含义的能力难度很大。

利用计算机以及MATLAB中的图像处理工具箱却可以较容易的分析获得文字的几何特征,比如文字的高度、文字间距等信息,在匹配时也可以充分利用碎纸片边缘像素点的连续性,从而不需要让计算机去匹配文字的内容,而仅仅考虑边缘文字的形状特征。

这样可以有效提高拼接的效率,但是由于碎纸片边缘形状相同,某些纸片边缘的灰度值完全相同,从而导致匹配的纸片不唯一,可以有多种选择,让计算机对碎纸片进行全自动化拼接还要保证拼接的准确性,实现起来可能性不大,因此需要在拼接过程中加入人工干预。

一般先根据建立的模型及算法给出待选的匹配碎片,在利用人工进行进一步的分析,对不唯一的待选碎片进行舍弃,正确选择待匹配的碎片。

对于问题1,可以利用相邻纸片边缘像素值相似的特性,提取每一张图片文件的左,右两侧边缘像素信息,通过逻辑异或逻辑运算对图片边缘进行点对点的匹配,建立了基于灰度信息的特征匹配模型,对附件1和附件2的碎片数据进行拼接复原,通过计算机模拟,在没有人工干预的情况下,全自动的实现了快速复原。

碎纸片的拼接复原

碎纸片的拼接复原

碎纸片的拼接复原作者:平安左帅平静来源:《青年生活》2020年第28期摘要:本文利用各碎纸片的灰度值矩阵相似程度进行匹配,解决了同页纵切、同页横纵切不同情况的碎纸片拼接复原问题。

关键词:灰度值相似度模型;聚类;分区块匹配;模拟退火一、背景分析碎纸片的拼接主要依据各纸片边缘的灰度值,边缘灰度值相似程度高的纸片其拼接成功的可能性就较大。

分别针对同页纵切和同页横纵切不同情况的碎纸片进行分析复原。

要解决同页单面纵切的碎纸片拼接复原问题。

建立碎纸片拼接复原模型和算法,对中、英文各一页文件的碎纸片数据进行处理,得到灰度值矩阵,利用文件边缘的特性确定其最左边的碎纸片,根据筛选出的最左边碎纸片将其他碎纸片进行聚类处理。

最终找到边界灰度值相似程度较高的碎纸片进行匹配处理,完成拼接复原。

要解决同页单面横纵切的碎纸片拼接复原问题,碎纸片数量的增多为该问题加大了难度。

可将属于同一横向条状纸片的碎纸片进行聚类,模拟退火算法使碎纸片拼接复原成横向条状纸片,解决纵切产生的横向无序性问题。

再对横向条状纸片进行纵向排序,从而解决碎片由于横切产生的纵向无序性问题。

必要时,引入人工干预以帮助拼接顺利进行,提高拼接的效率和正确率。

二、模型假设及说明1.假设碎纸片的完整性良好,即:每个附件中的碎纸片都来自同一文件,且同一文件的所有碎纸片都存在与附件中。

2.假设每个碎纸片的边缘光滑,切割时无毛边产生。

3.假设切割产生的碎纸片尺寸完全相等,即每个碎纸片的灰度值矩阵形式相同。

三、模型的建立与求解3.1单面纵切碎纸片模型的建立与求解3.1.1图像的数据处理对碎纸片进行数据处理,将碎纸片的图像分别导入到 matlab 中,依次得到每个图像的灰度值矩阵,例如第2张碎纸片的灰度值矩阵C1:其中ai,j(n)意为编号为n的碎纸片的图形灰度值矩阵中第i行第j列的灰度值,满足{a|a∈[0,255]且a∈Z}。

3.1.2建立图像边界的灰度值相似度模型对于单面纵切的碎纸片复原问题,利用可拼接的两碎纸片相邻边界灰度值相似的原理,从首先确定的文件左边缘的碎纸片开始,其他碎纸片左边界的灰度值逐个与其右边界灰度值对比,找到最相似的碎纸片进行匹配,以此类推,使得破碎文件从左到右依次拼接复原。

基于特征点匹配的双面碎纸片自动拼接复原

基于特征点匹配的双面碎纸片自动拼接复原

摘要:本文以2013年全国数学建模竞赛B题为背景,主要研究双面打印碎纸片的拼接复原问题。

利用特征点匹配的图像拼接算法,绘出了基于特征点的图像拼接流程图;根据图像拼接流程图建立了特征点检测算法Moravec角点检测算法模型,通过计算各像素的兴趣值、选择恰当的特征点、候选点,分析运算得到了附件5的碎纸片拼接复原结果。

关键词:拼接复原特征点匹配Moravec角点检测1研究背景破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。

特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。

本文利用数学建模,借助MATLAB、SPSS软件研究试图双面打印文件碎纸片的自动拼接复原,以提高拼接复原效率。

2数据提取利用题目给的为碎纸片的图片,先使用MATLAB软件读入图片,把图片特征位置信息转换为数字矩阵。

MATLAB函数为:imread(‘file name’)。

3问题求解3.1Moravec角点检测模型的建立由于双面打印文件中碎片数量众多,利用图片边缘灰度矩阵进行匹配时会产生庞大的数据,实际操作过程中进行人工干预会产生很大误差。

本文采用基于特征点的图片拼接模型,并取各矩阵的角点为特征点。

图像拼接的质量主要依赖于图像配准的程度,因此图像的配准是拼接算法的核心和关键。

算法的总体思想是既要保证配准的精度,又要保证计算量不要过大。

基于特征点匹配的图像拼接算法包括:特征点检测、特征点匹配、空间变换、图像融合。

下图1是基于特征点的图像拼接流程图。

输入原始图像a输入原始图像b提取a图像特征点提取b图像特征点对图像a、b进行特征匹配计算图像变换关系对图像b进行几何变换图像融合a、b图1用特征来建立两幅图像之间的匹配对应关系,所以提取好的特征是特征匹配的关键,那么选择高精度的提取方法至关重要。

特征提取的难点在于自动、稳定、一致性的特征提取。

特征点中主要的一类是角点,本文采用的是Moravec角点检测算法。

基于角边特征的纸质碎片自动拼接复原算法

基于角边特征的纸质碎片自动拼接复原算法

基于角边特征的纸质碎片自动拼接复原算法
纸质碎片拼接复原是指通过对纸质碎片进行拼接,复原出原始图像或文本的过程。

在文化遗产保护、证据鉴定等领域具有重要的应用价值。

本文介绍一种基于角边特征的纸质碎片自动拼接复原算法,该算法能够自动识别碎片之间的拼接关系,并实现高效准确地拼接复原。

算法的基本思路是通过提取碎片之间的角边特征来确定它们之间的拼接关系。

具体而言,算法首先对每个碎片进行图像预处理,包括灰度化、二值化、边缘检测等操作,以提取出碎片的角边特征。

然后,算法对每对碎片计算它们之间的角度差和边缘特征相似度,并根据这些特征值来判断它们是否具有拼接关系。

算法通过遍历所有可能的拼接组合,选择最优的拼接方案,完成纸质碎片的复原。

在角边特征的提取过程中,算法采用了多种经典的图像处理方法。

算法对图像进行灰度化处理,将彩色图像转换为灰度图像。

然后,算法对灰度图像进行二值化处理,将图像转换为黑白二值图像。

接下来,算法通过边缘检测算法(如Sobel算子、Canny算子等)提取出碎片的边缘特征,以便后续计算角度差和边缘特征相似度。

在拼接复原的过程中,算法通过遍历所有可能的拼接组合,选择最优的拼接方案。

为了提高算法的效率,可以采用一些优化策略,比如动态规划、剪枝等。

在拼接复原的过程中,算法还可以利用一些先验信息,比如碎片的形状、纹理等,来辅助拼接的判断和优化。

碎纸片的拼接复原(1)

碎纸片的拼接复原(1)

碎纸片的拼接复原摘要计算机辅助碎片拼接是模式领域中的一个典型问题,它是司法鉴定,文物修复等领域有着广泛的应用。

目前的研究都是针对不规则图片的复原,对规则图片的研究还有待实现。

本文主要是研究规则形图片的复原问题,规则形图片的拼接不能像不规则图片拼接那样考虑其形状等,所以我们考虑从边缘相似度方面进行处理。

对于问题一:基于余弦相似度的算法,先对图片进行数字化处理,利用matlab程序求出每个图片的灰度值,然后提取出每个图片的最左边缘和最右边缘的灰度值并进行归类处理。

根据灰度值,利用人工干预,挑选出完整拼接图的第一张图片和最后一张图片。

我们把挑选出来的第一张图片的最右边缘灰度值和剩下的图片的最左边缘灰度值采用了余弦相似度算法进行匹配,找到最大相似度匹配图片。

之后依次循环遍历找到所有图片的最大相似匹配图。

最后利用matlab图片拼接技术实现图片的复原。

5.1问题一模型的建立和求解本文主要是研究碎纸片的拼接问题,由附件分析可知,这些图片均为规则的,所以我们没有考虑图片的形状问题。

为了得到完整的碎纸片的拼接图,我们着重研究了碎纸片颜色分布特征。

5.1.1图片的数字化灰度值,实现图片的数字化。

灰度是根据matlab程序我们计算出每张图片的]1[指黑白图像中点的颜色程度,范围一般从0到255,白色为255,黑色为0。

5.1.2图片的预处理图片预处理的目的是提取碎纸片的边缘颜色分布特征向量,预处理的过程为:图像边缘灰度值的提取——灰度值进行分类图像边缘灰度值的提取:根据图片的数字化结果,我们把每张图片的第一列和最后一列的灰度值提取出来,作为这张图片的颜色分布特征,。

灰度值进行分类:根据提取出的灰度值,我们把每张图片的第一列灰度值归为一类,放入excel表格中,我们称为left表格,把每张图片的最后一列灰度值归为一类,也放入excel表格中,我们称为right表格。

5.1.3图片的提取一张完整的纸张的左右两边都有空白的地方即左右边界灰度值都为255,所以我们先进行人工选择,把这张纸的左右两边先挑选出来,根据灰度值分类,我们从left表格中找出灰度值全为255的那列,即为第一张图片,从right表格中找出灰度值全为255的那列,即为最后一张图片。

碎纸片的拼接复原

碎纸片的拼接复原



文字高度



文字间隔

仅横切碎片(中、英文) 英文字母的规格化处理
横、纵切中文
横、纵切英文
第一问
➢ 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片 (此时仅纵切),建立碎纸片拼接复原模型和算法,并针 对附件1、附件2给出的中、英文各一页文件的碎片数据进 行拼接复原。如果复原过程需要人工干预,请写出干预方 式及干预的时间节点。
1.文字行高的确定:
h1 h3
h2
我们定义:上方的汉字末端与文档上边缘距离为h1,相同的,下方汉 字末端与文档下边缘距离为h2。
2.分析:
A=

B=
定义:C=A(h1)-B(h1)。
分析:当C值越小时,说明A矩阵的h1与B矩阵的h1越接近,则说 明碎片A与碎片B在同文档中同一行的可能性越大。我们以此作为 依据,用来寻找在同行的碎片。 但是,在实际的操作中,我们的算法出现了较大的误差。通过对数 据和附件图片的分析,我们发现,由于某些特殊图片的存在,导致 我们的算法出现误差。在这里,我们又使用h2来进行条件约束,优 化我们的算法。
• 3.附件5给出的是一页英文印刷文字双面打印文件的碎片 数据。请尝试设计相应的碎纸片拼接复原模型与算法,并 就附件5的碎片数据给出拼接复原结果。如果复原过程需 要人工干预,请写出干预方式及干预的时间节点。
思路框图
边界碎片选取 左右边缘空白原则 左右边缘空白最宽原则
拼接合理度分析
最大契合 度函数
最小契合 度函数
总结:
➢图片信息处理 ➢确定最边缘碎片 • 定义边缘矩阵匹配度函数 ➢完成整篇文章的复原
图片信息处理:
• 我们将附件中的图片导入至MATLAB中,计算机会将文件 中的图像信息转化数字信息,以任意汉字做示意,其过程 如下:

碎纸片的拼接复原_数学建模二等奖论文

碎纸片的拼接复原_数学建模二等奖论文

碎纸片的拼接复原摘要破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

但是人工完成效率很低,所以引入计算机复原,计算机虽然准确率不及人工高,但是可以大大减轻工作强度。

本论文主要是对纸张形状为矩形切割规范并且纸张上的文字标准的碎纸片的拼接复原的研究。

问题一:首先根据图片的灰度矩阵找出第一张(最左侧)图片,根据小差值优先匹配依次排出相邻图片。

碎纸片复原后的顺序如附件一、二所示。

问题二:首先根据图片的灰度矩阵最左侧n列灰度值求和最大,可找出第一列(最左侧)图片,共11张。

根据“行间”的位置特征作为凝聚点进行聚类分析,将所有图片分为11类,即11行。

应用小差值优先匹配将这每行的图片进行拼接,得到11个行图片,再次应用小差值优先匹配把这11个行图片拼接成完整的图片。

碎纸片复原后的顺序如附件三、四所示。

问题三:同问题二方法一致,找出第一列(最左侧)图片(正反两面共有22张图片),将这些“行间”的位置特征作为凝聚点进行聚类分析,所有的图片分为11“大行”,将这些图片配对的正反面进行上边缘“粘接”处理,按照小差值优先匹配将这每行的粘接形成的19图片(如图一所示)进行拼接,得到11个行图片之后,再次应用小差值优先匹配把这11个行图片拼接成完整的图片。

碎纸片复原后的顺序如附件五所示。

观察上述三个问题的处理方法可知,三个问题的解决办法主干思想完全相同,都是小差值优先匹配解决,并且清晰简练。

但是由于问题的逐渐深入和复杂程度的增加,仅靠这一个简单的方法并不能在实际中解决问题,于是增加约束条件减小搜索范围,如:找出“行间”位置,并作为凝聚点进行聚类分析,然后就可以很大程度上减小出错的概率。

关键词:聚类分析、MATLAB R2012a、小差值优先匹配、灰度矩阵1、问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。

基于结构特征的碎纸片的拼接复原问题—课程设计论文

基于结构特征的碎纸片的拼接复原问题—课程设计论文

课程设计论文基于结构特征的碎纸片的拼接复原问题基于结构特征的碎纸片的拼接复原问题摘要碎纸自动拼接技术是图像处理与模式识别领域中的一个典型的应用,该技术通过扫描和图像提取技术获取一组碎纸片的形状、纹理及内容等信息,然后利用计算机进行相应理解从而实现对这些碎纸片的全自动或半自动拼接还原。

针对问题一,考虑到纵切的碎纸片所含有的信息量较大,利用图像处理中的信号匹配方法,结合左右两个碎纸片的灰度像素矩阵的边缘特征,建立基于结构特征的灰度匹配模型,对英文字母制定了灰度相似的配准规则,使待拼接的碎纸片边缘的对应行像素之差的平方和最小;而结合中文字符的横笔结构特征,对中文字制定了“横笔”匹配相似度的配准规则,并给出了最终的碎纸拼接图和拼接次序,拼接的正确率是100%。

针对问题二,对于既纵切又横切的情形,每一个纸片的边缘所含的信息量相对较少,故对中、英文碎片的拼接复原需各自建模分析。

首先利用“分而治之”的思想,将一个难以直接解决的大问题,分割成一些规模较小的相同问题。

对于中文碎片拼接复原,根据中文的方块特点,给出了中文的文字结构特征向量及其边缘像素的特征向量。

根据这些结构特征向量对所有的碎纸片进行粗分类,在此基础上设计了基于边缘特征的匹配规则集,对每一行从左到右在进行细匹配。

利用等距序列图像的快速拼接技术拼出左边第一列,基于灰度匹配,将图像转化为二值图像并对每行进行最优匹配。

先按照行配准,然后再进行列配准,最终匹配出误差最小的图像;对于英文碎片复原同样采取人工干预粗分类,粗匹配后,采用神经网络算法对碎片图像训练、学习构建BP网络对英文字母进行匹配识别,结合剪枝定界法实现英文碎片的拼接复原。

发现每行匹配率为78.85%,整篇匹配率大约为68.73%。

针对问题三,由于碎片数据均为双面打印文件,文字特征相同,仅用问题二中的方法产生的误差太大,仍沿用粗分类特点通过神经网络拼接、灰度匹配修正、人工干预,结合等距序列拼接技术实现单面拼接,然后验证反面的正确性并修正。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): B赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):基于结构特征的碎纸片的拼接复原问题摘要碎纸自动拼接技术是图像处理与模式识别领域中的一个典型的应用,该技术通过扫描和图像提取技术获取一组碎纸片的形状、纹理及内容等信息,然后利用计算机进行相应理解从而实现对这些碎纸片的全自动或半自动拼接还原。

针对问题一,考虑到纵切的碎纸片所含有的信息量较大,利用图像处理中的信号匹配方法,结合左右两个碎纸片的灰度像素矩阵的边缘特征,建立基于结构特征的灰度匹配模型,对英文字母制定了灰度相似的配准规则,使待拼接的碎纸片边缘的对应行像素之差的平方和最小;而结合中文字符的横笔结构特征,对中文字制定了“横笔”匹配相似度的配准规则,并给出了最终的碎纸拼接图和拼接次序,拼接的正确率是100%。

针对问题二,对于既纵切又横切的情形,每一个纸片的边缘所含的信息量相对较少,故对中、英文碎片的拼接复原需各自建模分析。

首先利用“分而治之”的思想,将一个难以直接解决的大问题,分割成一些规模较小的相同问题。

对于中文碎片拼接复原,根据中文的方块特点,给出了中文的文字结构特征向量及其边缘像素的特征向量。

根据这些结构特征向量对所有的碎纸片进行粗分类,在此基础上设计了基于边缘特征的匹配规则集,对每一行从左到右在进行细匹配。

利用等距序列图像的快速拼接技术拼出左边第一列,基于灰度匹配,将图像转化为二值图像并对每行进行最优匹配。

先按照行配准,然后再进行列配准,最终匹配出误差最小的图像;对于英文碎片复原同样采取人工干预粗分类,粗匹配后,采用神经网络算法对碎片图像训练、学习构建BP网络对英文字母进行匹配识别,结合剪枝定界法实现英文碎片的拼接复原。

发现每行匹配率为78.85%,整篇匹配率大约为68.73%。

针对问题三,由于碎片数据均为双面打印文件,文字特征相同,仅用问题二中的方法产生的误差太大,仍沿用粗分类特点通过神经网络拼接、灰度匹配修正、人工干预,结合等距序列拼接技术实现单面拼接,然后验证反面的正确性并修正。

关键词:图像拼接,灰度配准,结构特征,配准规则,神经网络一、问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

拼接复原工作若由人工完成,准确率较高,但效率很低。

特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。

现试图开发碎纸片的自动拼接技术,以提高拼接复原效率。

我们需要建立数学模型解决以下问题:1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预,写出干预方式及干预的时间节点。

2. 对于碎纸机既纵切又横切的情形,设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预,写出干预方式及干预的时间节点。

3. 现实情形中可能有双面打印文件的碎纸片拼接复原问题需要解决。

附件5给出的是一页英文印刷文字双面打印文件的碎片数据。

尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果。

二、问题分析碎纸自动拼接复原技术在司法鉴定,历史研究等领域都有着广泛的应用。

近年来,随着德国斯塔西文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。

碎纸自动拼接技术是模式识别领域中的一个很典型的应用。

涉及数字图像处理,机器学习等多个学科,充分体现了当下多学科相互融合的学科特点,这也正说明了碎纸自动拼接本身具有一定的难度。

匹配技术是碎纸自动拼接技术的关键,它可以分为两个步骤:局部拼接和全局恢复。

局部拼接是指碎片两两之间的拼接问题,全局拼接是关于一组碎片之间的匹配问题。

局部匹配技术可以分为两类,一类比较具体,多对应图像低层像素或像素的集合,统称为图像匹配;另一类则比较抽象,主要与图像或目标的性质有关统称为广义匹配。

图像匹配包括模板匹配、目标匹配和动态模式匹配。

广义匹配包括关系匹配、线图同构和特征内容匹配。

特征内容匹配包括颜色匹配、纹理匹配、形状匹配和综合特征匹配等。

目前对碎纸拼接的研究,主要应用的是特征内容的匹配,本文应用其中的轮廓匹配。

碎纸拼接中的匹配技术,与传统匹配技术不同,它的特征都是未知的,没有先验知识可以参考,这也是碎纸拼接的难点。

对于传统破碎文件的拼接,更多的使用破碎纸片的边缘形状提取其轮廓曲线并利用计算机算法进行拼接,但现今越来越多的破碎纸片拼接问题中破碎纸片的边缘形状都近似相同,边缘形状拼接不再实用。

而对于边缘相似的破碎纸片的拼接,理想的计算机拼接过程应当与人工拼接的结果相同,但计算机无法完全的识别破碎纸片上带有的信息,所以对于现有算法只能近似完成破碎纸片的拼接。

针对问题一,因使用碎纸机对纸片进行纵切,每个纵切的纸片所含的信息量较大,所以对于问题一,利用左右两个纸片的边缘特征,可以制定灰度相似的配准规则,使得纸片边缘的对应行像素之差的平方和最小,拼接成功率将会更高。

针对问题二,使用碎纸机对纸片进行纵切且横切,问题变的复杂,由于纸片数量多,且碎纸片包含的信息少,用灰度匹配的话,一定会有较大的误差。

如果单纯考虑使用某种算法在解空间中进行遍历搜索最优匹配,算法的复杂度较高。

如何合理的减小误差又不至于增加太多的工作量,就需要找到恰当的算法和模型对问题一进行优化。

我们可以利用“分而治之”的思想,首先把所有的纸片按照其字符的结构特征(如行间距,列间距,字高,字宽,字间距等)进行粗分类,然后通过人工干预,拼出左边第一列,先按照行配准,然后在进行列配准。

对于每一行配准,我们可以刻画每个碎纸片的特征,分为结构特征和边缘像素特征。

对于碎纸片,我们在寻找某个边的待选碎片时,可以指定规则来提升效率,比如在左边匹配时,用行间距过滤掉不符合的碎片(也就是过滤掉不符合约束条件的取值范围),也就是剪枝定界法;如果带匹配的左边是有黑色数值的,再用目标碎片右边应该也有黑色数值,且出现的位值相近过滤掉图片;再用拼接好的图片中的字间距看看是否符合一个字的宽度等。

通过配准规则,结合字符的结构特征和边缘特征,我们应该可以得出第二问的配准图像。

针对问题三,碎片依然被纵切、横切成了209块。

但本题中还加入了正反两面,增加了问题的复杂性,不过建模的总体思想并没有变。

首先我们要通过配准规则,结合字符的结构特征和边缘特征对碎片进行一次拼接,但误差将会很大。

为更好的减小误差,我们可以结合灰度匹配和人工干预对已生成的图像进行修正。

三、符号说明四、模型假设结合本题实际,为了确保模型求解的准确性和合理性,我们排除了一些因素的干扰,提出以下几点假设:1.假设每条碎纸片都保持完整,无破损。

2.假设碎纸机切纸片的切口都较整齐。

3.假设同一页文件上文字的打印墨浓度相同。

4.假设同一页文件上文字的字体相同,同一页文件上文字只包含中文或者英文。

5.假设文件上文字颜色不受空气中水分等其他因素的影响.6.假设图像不许进行降噪、平滑滤波等预处理。

五、模型的建立与求解5.1模型建立前的准备5.1.1设置匹配准则集本题目并不是一个简单的图像拼接问题,所以我们设置包含灰度匹配、基于特征、BP神经网络、异或运算相结合的匹配准则集。

1.灰度匹配灰度匹配的基本思想:以统计的观点将图像看成是二维信号,采用统计相关的方法寻找信号间的相关匹配。

利用两个信号的相关函数,评价它们的相似性以确定同名点。

灰度匹配通过利用某种相似性度量,如相关函数、协方差函数、差平方和、差绝对值和等测度极值,判定两幅图像中的对应关系。

最经典的灰度匹配法是归一化的灰度匹配法,其基本原理是逐像素的把一个以一定大小的实时图像窗口的灰度矩阵,与参考图像的所有可能的窗口灰度阵列,按某种相似性度量方法进行搜索比较的匹配方法,从理论上说就是采用图像相关技术。

2.基于特征大多数完整文字文档的文字行方向和行间距平行且单一,如果碎片内的文字行在碎片边缘断裂,那么与它相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行,凭此特征可以很容易得从形状相似的多碎片中挑选出相邻碎片。

因文字行的高度特征、间距特征的识别比字迹断线识别和文字图像的理解实现起来更容易些,利用碎片内文字行特征拼接相似的碎纸片理论上是可行的。

3.BP神经网络BP (Back Propagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。

输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。

当实际输出与期望输出不符时,进入误差的反向传播阶段。

误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。

周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。

4.异或运算异或逻辑的真值表如图1所示,其逻辑符号如图2所示。

异或逻辑的关系是:当不同时,输出;当相同时,输出。

“”是异或运算符号,异或逻辑也是与或非逻辑的组合,其逻辑表达式为:由图1可知,异或运算的规则是0⊕0=0,0⊕1=11⊕0=1,1⊕1=0口诀:相同取0,相异取1事实上,XOR 在英文里面的定义为either one (is one), but not both,也即只有一个为真(1)时,取真(1)。

相关文档
最新文档