碎纸片还原问题求解
碎纸片拼接复原的数学模型_杨武
121数学学习与研究2014.11碎纸片拼接复原的数学模型◎杨武李博(江苏南京农业大学工学院210000)【摘要】本文对碎片的拼接复原问题,建立了碎纸片拼接模型,编写matlab 程序,利用人机交互指令实现碎片的快速拼接.对2013年“高教社杯”全国大学生数学建模竞赛的B 题中所给11x 19个碎片文件进行拼接.【关键词】碎片拼接模型;matlab ;灰度值矩阵;Kmeans 聚类;人机交互一、研究背景及意义近年来,大量政府机关、企事业单位采用碎纸机对废弃文件或失效的机密文件进行破碎,这种破碎方法产生的碎片多为规则的.这使得在进行破碎文件的复原拼接时,只能根据文字内容进行匹配,为此,本文考虑应用当前的计算机识别技术开发碎纸片的自动拼接技术,对所有碎片搜索和筛选,寻找能够在某种指标上匹配的碎片进行拼接.提高拼接复原效率,从而大大降低人工工作量和难度.对碎片自动拼接问题的研究,不仅具有广阔的应用前景,而且具有很强的理论意义.二、图像碎片预处理首先,利用matlab 图像处理功能对碎纸片进行图像预处理.即将碎纸片数字化,转化为图片文件的数据.即一个二维数组构成的灰度值矩阵,这个矩阵存储着一张碎纸片各个像素点的颜色值,其中255表示白色,0表示黑色,图片中颜色均处在黑白、或黑白之间,图片数字化后的数字范围在0 255之间.三、碎纸片拼接模型的假设1.假设碎片原文件都存在上、下、左、右的页边距,且边距大于行间距和列间距;2.假设相邻碎片间纸张信息的损失可以忽略不计;3.假设碎纸机是沿平行或垂直于文字的方向对纸张进行切割的.四、碎纸拼接模型的建立1.挑出每行最左边的图片:根据图片的边缘留有空白部分的特性,挑选出图片最左边存在空白部分的图片作为左边界的候选图片.方法实现:计算图片左边距留白宽度:即可用灰度值矩阵中左端竖列上全为255(即左侧完全空白)的连续列数度量,由matlab 检测出每张图片的留白宽度.留白宽度排序:对上面得到的留白宽度进行排列,取排在前面的11张图片作为拼接过程的起始碎片.2.图片按行分类:根据Kmeans 聚类算法,对碎片进行按行分类.分类实现:①先根据底端一行是否为纯空白将209幅图分为下端有纯空白行和下端有被截文字两类.②对于空白行一类,下端空白行数相同或相近的纸条属于原文件同一行;③对于下端有被截文字的一类,下端被截文字高度相同或相近的纸条属于原文件同一行.④分析确定好的最左端图片的特征,依此为11个聚类中心,利用matlab 程序分类.3.对同行碎片进行拼接①拼配原则———突变数将所有的碎片进行处理后得到灰度值矩阵,分别记作M i (i =1,…,n )(n 为图片的数量)通过对每一张碎片的数据进行了分析,不难发现在每一张碎片上,同一行相邻两个点的像素值从0变为255或者从255变到0的比例仅有0.016%左右.将相邻两个像素值由0变到255或者由255变到0定义为一次突变.定义两张碎片的突变数如下:设Ri 为某张碎片M i 的最右侧一列像素值,L j 为另一张碎片M j 的最左侧一列像素值(Ri 和L j 均为180行的列向量),碎片M i 和M j 的突变数:T ij =∑180k =1flag (k )ij ,flag (k )ij =1R(k )i -L (k )j =2550R(k )i -L (k )j <{255,其中R(k )i 表示向量Ri 的第k 个分量,L (k )j 表示向量L j 的第k 个分量.②匹配过程以上面确定的最左边的碎片为起点,计算该碎片所在行的可能的碎片与其的突变数T.理论上T 值越小,两个图片的匹配的可能性最大,将T 进行由小到大的排序,在matlab 程序中让起始碎片优先与T 值最小的匹配,若匹配不成功再依次考虑T 值较大的,直至匹配成功.4.人工干预①人工干预时机:本文对209个已有碎片,分析发现若其余碎片与其的突变数仅有一个为0,则突变数为零的那个碎片一定与该碎片相匹配,一旦出现突变数均不为0,则需进行人工干预.②人工干预方法:为减少人工干预次数,做如下工作:1)计算碎片M i 灰度值矩阵最右一列Ri 与位于M i 行的其余碎片灰度值矩阵最左一列L j 的偏差平方和S 作为人工干预的指标:S =∑180i =1(Ri-L i )2.2)对偏差平方和S 由大到小进行排序,将碎片的序号放入集合US 中,S 大的最有可能与碎片M i 相匹配③在matlab 程序中让碎片M i 依次与集合US 中的图片进行匹配,每次对两个图进行匹配时,令命令窗口弹出这两个图匹配在一起的图片,进行人工观察.通过对拼接处文字字形和语义的分析,人工检查该匹配是否合理.5.纵向拼接①观察11条已拼好的横切纸条,根据所有纸条的上边缘特征确定位于原文件顶端的横切纸条,并以该纸条为起始纸条.②根据起始纸条的下边缘灰度值特征,利用上述步奏拼出整张文件.五、模型的评价与改进1.模型的优点:模型采用突变数和偏差平方和作为评价函数评定碎片间邻边的相关度,高效而且实用.能大大减少人工干预的次数.2.模型的局限性:由于研究的是碎纸机产生的碎片.该模型只考虑了对多个相同的形状规则的碎片进行拼接,且当碎片的数量增加且单个碎片的文字覆盖率越小时,更易产生灰度分布情况相似的碎片,需要进行人工干预的次数会相应增多.六、结论本文对碎纸片的匹配原则和人工干预进行了探讨和研究,建立了一个可靠高效的数学模型,利用图片数字化后数值之间的分布规律和相关度引入突变值和偏差平方和作为评价指标,利用matlab 软件实现快速拼接.并为了提高拼接准确性,巧妙地使用人机交互指令进行人工的检测干预.【参考文献】[1]何鹏飞,等.基于蚁群优化算法的碎纸拼接.计算机工程与科学,2011,33(7).[2]邓薇.MATLAB 函数速查手册.北京:人民邮电出版社,2010.[3]宋晓闯.基于灰度和几何特征的图像匹配算法研究.万方数据库,2013-09-13.。
碎纸片拼接复原的数学方法
碎纸片拼接复原的数学方法拼图游戏,一种看似简单却富含深度的游戏,给人们带来了无穷的乐趣。
然而,大家是否想过,这样的游戏其实与数学有着密切的?让我们一起探索碎纸片拼接复原背后的数学方法。
碎纸片拼接复原,其实就是一个计算几何问题。
在数学领域,欧几里得几何和非欧几里得几何是两个基本而又重要的分支。
欧几里得几何主要研究的是在平面上两点之间的最短距离,这是我们日常生活中常见的几何学。
而非欧几里得几何则研究的是曲面上的几何学,这种几何学并不符合我们日常生活中的直觉。
碎纸片拼接复原的问题就是一种非欧几里得几何问题。
在计算机科学中,图论是研究图形和网络的基本理论。
其中,图形遍历算法可以用来解决碎纸片拼接复原问题。
这种算法的基本思想是:从一点出发,尽可能多地遍历整个图形,并在遍历的过程中对图形进行重建。
对于碎纸片拼接复原问题,我们可以将每一张碎纸片看作是图中的一个节点,当两张碎纸片拼接在一起时,它们就形成了一个边。
通过这种方式,我们可以将所有的碎纸片连接起来,形成一个完整的图形。
在计算机科学中,碎纸片拼接复原问题被广泛应用于图像处理、数据恢复等领域。
例如,在数字图像处理中,如果一张图片被切割成若干块,我们可以通过类似的方法来恢复原始的图片。
在数据恢复领域,当一个文件被删除或格式化时,我们也可以通过类似的方法来恢复文件。
碎纸片拼接复原的问题不仅是一个有趣的拼图游戏,更是一个涉及计算几何、图论等多个领域的数学问题。
通过运用这些数学方法,我们可以有效地解决这个问题,从而更好地理解和应用这些数学理论。
在我们的日常生活中,我们经常会遇到一些破碎的物品,例如碎镜子、破碎的瓷器,或是碎纸片等。
这些物品的复原过程都需要一种科学的方法来帮助他们重新拼接起来。
这种科学方法就是碎纸片拼接复原技术。
碎纸片拼接复原技术是一种基于数学模型的方法,它通过比较碎纸片边缘的形状、纹理、颜色等特征,来找到碎纸片之间的相似性和关联性,从而将它们拼接起来。
2013年数学建模B题碎纸片的拼接复原
年
9 月 15 日
赛区评阅编号(由赛区组委会评阅前进行编号) :
1
2013 高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号) :
赛区评阅记录(可供赛区评阅时使用) : 评 阅 人 评 分 备 注
全国统一编号(由赛区组委会送交全国前编号) :
全国评阅编号(由全国组委会评阅前进行编号) :
2
三.模型假设
1. 所有碎纸片的拼接都可以忽略边缘效应,即可无缝地融合在一起; 2. 对于仅纵切的两块待拼接的碎纸片,可用像素点灰度值矩阵的相似度大于 0.6 作为 判别标准; 3. 对既纵切又横切的碎纸片,拼接后原图形四周的像素点是 255; 4. 人工干预可以准确的选择出不确定的待拼接图形; 5. 对于既纵切又横切的两块待拼接的碎片,先进行行拼接,再进行列拼接; 6. 假设给定待拼接碎纸片边缘平滑。
二.问题分析
第一问中, 对于中、 英文的纵切单面文件, 可以选择矩阵相关性匹配算法, 在 MATLAB 中导入图形后,将图形中的变量转换为矩阵的形式,采用矩阵相似度比较法,提取待拼 接图形中第一列和最后一列像素点灰度值, 用 corr2 函数进行相似度比较, 然后根据相 关系数的大小来判断待拼接图形文字区域的相似程度,相关系数(0 表示毫不相关,-1 和 1 表示完全相关,靠近-1 或 1 表示相似程度较大) 。 由此得到待拼接图形的相应位置,从而实现文字的拼接。 第二问中,中、英文的纵横切单面文件拼接复原的处理问题,在上一问的基础上将 问题简化为 19 次行方向的碎片拼接,对一拼接的行再进行列方向上的拼接。依然使用 矩阵相关性算法,在 MATLAB 中导入图形后,将各个图形的变量转换为的相应的矩阵形 式,矩阵相似度比较,提取待拼接图形四周边缘像素点灰度值,用 corr2 函数进行相似 度比较, 然后根据相关系数的大小来判断带拼接图形文字区域的相似程度。 由于图形数 量多, 相关系数不能唯一确定一张拼接图形, 此时要进行人工干预, 筛选出合适的图形, 再对剩余的待拼接图进行矩阵相似度比较,得到行方向的图形。最后根据 MATLAB 软件 编写的程序和人工干预拼接处整张图形。 第三问中,对于中、英文的纵横切双面文件的拼接复原,在第二问的基础上需要比 较正反两面, 在比较的过程中其中一张有可能出现正反两面与另一张图像在算法中计算 出来的相关系数几乎差不多,此时可能要进行人工干预,选出那张是正面还是反面。
碎纸片的拼接复原的数学模型
碎纸片的拼接复原摘要本文主要采用了模糊模型识别、灰度相关、傅里叶变换等方法对碎纸自动拼接进行了深入探讨。
文中主要结合司法物证复原、历史文献修复、军事情报获取这一背景,针对横纵切碎自动拼接展开探究。
提出一种基于最大梯度和灰度相关的全景图拼接法。
同时采用边界提取法使图像预处理达到最好的效果,期间采用傅里叶变换对图像进行处理,最后再利用匹配准则等方法处理图像的拼接。
最终应用模糊模型识别法建立模型,通过隶属函数的建立实现最终的碎纸拼接。
期间有些碎纸片计算机无法识别,需要进行人工干预,从而才能得到一副完整的复原图。
图像拼接的主要工作流程可以概括为以下三个步骤:(1) 对图像碎片进行预处理,即对物体碎片数字化,得到碎片的数字图像。
(2) 图像碎片匹配,通过匹配算法找到相互匹配的图像碎片。
(3) 图像碎片的拼接合并,将相互匹配的图像碎片拼接在一起得到最终结果。
针对问题一:将图像导入MATLAB 进行相应的转化,由于数据量较大,所以对数据进行优化提取。
计算提取数据的均值与方差,找出其模糊集,建立符合题意的隶属函数。
由于模糊集的边界是模糊的,如果要把模糊概念转化为数学语言,需要选取不同的置信水平(01)λλ≤≤ 来确定其隶属关系,从而实现纵切图像的全景拼接。
(如表一、表二)针对于问题二:由于是横纵切碎纸片,所得图像较多,采用提取像素法对图片进行灰度分析,通过中介量阈值的确定来找出像素点的差别,梯度值在这一过程中也是作为衡量两张碎纸片是否匹配的标准。
从而对数据进行处理,最后导入MATLAB 软件实现拼接。
(如表三、表四)针对问题三:它是在问题一和问题二上加深了难度,采用提取像素点,傅里叶变换,灰度相关、模糊相似优先比等方法对问题进行分析,通过(0,1)矩阵的简化运算以及傅里叶变换得到最后的结果,但对于傅里叶变换需说明一点,变换之后的图像在原点平移之前四角是低频,最亮,平移之后中间是低频最亮,也就是说幅角比较大。
此过程中同时也需要人工干预,最终实现拼接。
2013国赛 碎纸片的拼接复原数学建模B解题思路分析
2, 图片为文字,所以可以确认文字的形状,但大多为残字,故 可以补全剩余部分。 #根据残字,进行文字预算,找到字体可能是的字,补全字体,找图 片能补全的部分。 3, 图片文字都为从左到右书写,有固定的行。 #文字又从左到右书写,故可以对字的上下画线,从而将文字的拼接, 改为图形线性的匹配。 4,图片可能正反双面,也就是说可以双向确定但是,由于不知道什 么是正面,什么是反面,所以无法确定,故可以将其当做一副。 #广范围查询。 ¥还可以计算他的下一个或上一个字的位置。
பைடு நூலகம்
故可以对字的上下画线从而将文字的拼接4图片可能正反双面也就是说可以双向确定但是由于不知道什么是正面什么是反面所以无法确定故可以将其当做一副
残纸碎片平拼接
图片信息:
1, 图片边缘完整,语言不是普通话,故无法用语法辨别。 2, 图片为文字,所以可以确认文字的形状,但大多为残 字,故可以补全剩余部分。 3, 图片文字都为从左到右书写,有固定的行。 4,图片可能正反双面,也就是说可以双向确定但是,由 于不知道什么是正面,什么是反面,所以无法确定,故可 以将其当做一副。
碎纸片的拼接复原分析最终
碎纸片的拼接复原分析最终引言碎纸片的拼接复原是一项有趣且具有挑战性的任务。
无论是为了还原重要文件还是拼接有意义的图像,我们都需要使用各种技巧和方法来完成这项任务。
本文将介绍一种基于分析的碎纸片拼接复原方法,通过对碎纸片的形状、颜色和纹理等特征进行分析,最终达到拼接复原的目标。
碎纸片的特征提取在进行碎纸片的拼接复原之前,首先需要提取碎纸片的特征。
这些特征包括碎纸片的形状、颜色和纹理等。
形状特征提取为了提取碎纸片的形状特征,可以通过计算碎纸片的边界和角度来获得。
首先,使用图像处理技术,如Canny边缘检测算法,将碎纸片的边缘提取出来。
然后,使用霍夫变换来检测碎纸片的直线和角点,从而计算出角度和边界。
颜色特征提取碎纸片的颜色特征可以通过计算图像的颜色直方图来得到。
颜色直方图表示了图像中每个颜色的像素数量。
我们可以使用像素级别的颜色分布来比较不同碎纸片的颜色特征,并找到相似的碎纸片来进行拼接。
纹理特征提取碎纸片的纹理特征可以通过计算图像的纹理描述符来得到。
纹理描述符是用于描述图像纹理的数值特征。
其中,最常用的纹理描述符包括灰度共生矩阵(GLCM)和局部二值模式(LBP)。
通过计算碎纸片的纹理描述符,我们可以比较不同碎纸片之间的纹理相似度,并选择相似的碎纸片进行拼接。
碎纸片的拼接策略在完成碎纸片特征提取后,接下来需要制定碎纸片的拼接策略。
拼接策略将基于碎纸片的特征相似度和拼接的整体目标来确定。
相似度匹配根据碎纸片的形状、颜色和纹理特征,我们可以计算两个碎纸片之间的相似度。
一种常用的相似度计算方法是使用余弦相似度,它衡量两个向量之间的夹角。
通过计算碎纸片之间的相似度,我们可以找到最相似的碎纸片来进行拼接。
拼接顺序在进行碎纸片的拼接时,需要制定一个拼接顺序。
一种常用的策略是首先选择与已拼接部分最相似的碎纸片进行拼接,然后逐渐增加已拼接部分的面积,直到最终完成拼接。
拼接约束为了保证拼接的准确性,我们需要制定一些拼接约束。
碎纸片的拼接复原
碎纸片的拼接复原摘要本文研究了碎纸片的复原问题。
对已有的碎纸片,我们利用Matlab求碎纸片边各侧边线的灰度值,通过最小偏差平方和法进行碎纸片间的相互匹配,中间加入人工干预进行筛选,将附件中的碎纸片全部还原。
之后,我们将该方法进行推广,可用以处理更复杂形状碎图片的的还原问题。
对问题一:首先假定附件一所给仅纵切的碎纸片的行文方向与各碎纸片两侧边线垂直,在此基础上先人工干预,根据碎纸片的剪切规范,甄选出原始图片的第一张和最后一张碎纸片,编号分别为008和006。
其次通过Matlab求出图片边线处各小网格点的灰度值,采用最小偏差平方和法,对编号008碎片右边线处的灰度值和其它碎纸片的左边线处的灰度值进行对应网格点的数值匹配,找到最匹配的碎纸片。
附件二碎片的处理进行了类似处理,给出的复原图片见附表4。
对问题二:附件三文本既纵切又横切,同样我们假设所给附件三中碎纸片的行文方向与碎纸片的上下左右边线分别平行或垂直。
在问题一的算法基础上,通过Matlab求出各碎纸片的4条边线的边界灰度值,然后利用最小偏差平方和法,对上下左右四边进行灰度值匹配,当结果多个时,我们进行了人工干预。
附件四依照附件三的方法类似处理,最终的复原见附表7和附表9。
对问题三:附件五中的图片既纵切又横切而且是正反面。
我们参照问题一、二的处理方法,加入反面的灰度值测算,随机选择一张碎纸片与其他碎纸片进行遍历匹配,得出4张匹配的碎纸片后,以这4张碎纸片为下一起点,扩张匹配,最终给出的复原图见附表12。
为适应更一般的情形,我们在模型改进部分,给出了当碎纸片的文字行文方向与碎纸片两侧边线不垂直时的处理方法(只处理了边线为直线的情形)。
首先是通过测算出的碎纸片灰度值确定出碎纸片的边缘线,其次定出碎纸片边缘线附近网格点的灰度值,最后完成边线的的匹配。
关键词:人工干预灰度矩阵灰度值最小偏差平方和法一问题重述1.1问题背景纸片文字是人们获取和交换信息的主要媒介,尤其是在计算机技术飞速发展、数码产品日益普及的今天。
碎纸片拼接数学模型
碎纸片的拼接复原问题模型摘要本文研究的是碎纸片的拼接复原问题。
针对碎纸不同的裁剪特点,我们运用相关性系数法、聚类分析法等建立不同的模型来解决不同裁剪特点和不同纸张的复原问题。
针对问题一,我们利用图像数字化技术,借助MATLAB软件将题目中附件1,2所给的图片转化为灰度值矩阵,并作二值化处理,然后取出每个矩阵第一列和最后一列,采用相关系数分析的方法,计算每第一列和每最后一列相关系数,根据相关系数的大小确定相邻的图片,逐步确定各张图片的顺序,最后得到复原的图片。
中文文档拼接的顺序为:8,14,12,15,3,10,2,16,1,4,5,9,13,18,11,7,17,0,6,中文文档复原的结果见附录1;英文文档拼接的顺序为:3,6,2,7,15,18,11,0,5,1,9,13,10,8,12,14,17,16,4,英文文档复原结果见附录2。
针对问题二,同样,在将图片二值化处理后,我们运用聚类分析法将纵横裁剪后的图片进行行分类,经过人工干预后,获得需要的矩阵尺寸,然后根据图片的特点运用图片的上下边界和左右边界进行二次匹配,直到找到大致正确的图片排序;同时在必要时,进行二次人工干预,直到获得正确的图片排序。
关键词:碎纸片复原图像数字化相关性系数聚类法1 问题重述1.1 问题背景碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
然而,传统的拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
本题即是通过一些模型算法开展对碎纸自动拼接技术的研究,具有重要的现实意义。
1.2 要解决的问题问题一:对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,要求写出干预方式及干预的时间节点。
碎纸片的拼接复原007497.doc
高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载).我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题.我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出.我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性.如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理.我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等).我们参赛选择的题号是(从A/B/C/D中选择一项填写): B 我们的参赛报名号为(即电子文件名): B0813 所属学校(请填写完整的全名):广西师范大学参赛队员 (打印并签名) :1.2.3.指导教师或指导教师组负责人 (打印并签名):日期2013年 9 月16日赛区评阅编号(由赛区组委会评阅前进行编号):高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):纸片的拼接复原摘要碎纸自动拼接复原技术现今可以归结到计算机视觉和模式识别领域内的问题,它在司法物证复原、历史文献修复等重要领域都起着重要的作用.本文主要分析了文字的拼接技术,通过研究碎纸片内的像素矩阵和文字行特征特点,提出了基于文字图形的半自动拼接算法.对于问题1中的这种单面的仅纵向切碎的文字文件,通过Matlab程序分析附件中每个碎片的像素矩阵,确定拼接的第一个碎片(自左向右拼接),再根据两列像素矩阵的像素绝对差的和来确定相邻碎片的编号,从而得到完整的拼接方案.例如文字文件的拼接结果如下表所示:对于问题2中既纵切又横切的碎纸片,在问题一的基础上,充分考虑横向匹配和纵向匹配的要求,运用Matlab程序筛选最左列碎片成分,经过适当的人工干预根据文字行特征将所剩碎片进行行分类,大大提高拼接效率,得到意想的效果.例如文字文件的拼接结果如下表所示:对于问题3,在前两问的基础上,建立筛选附件5碎片图的优化模型,通过Matlab 编程,使用附件给的418张碎纸片图,将最终复原图划分为11个碎片横条区域,降低了拼接复原难度以及所需时间.最终复原结果见附录.最后,分析了所建立模型的优缺点以及推广,评价了文字碎纸片的拼接和复原实际情况.关键词文字图形碎片半自动拼接像素灰度 MATLAB程序一问题的重述碎纸自动拼接复原技术是计算机视觉和模式识别领域内的问题.它在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用.传统意义上的拼接复原工作需由人工完成,准确率较高,但效率非常低,特别是当碎片数量巨大时,人工拼接很难在短时间内完成任务.随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率.本文主要讨论:首先,对于给定的来自同一页单面印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,同时对题目中的附件1和附件2给出的中、英文各一页文件的碎片数据进行拼接复原.其次,对于同样是单面印刷文件既纵切又横切的情形,在第一问的基础上设计出碎纸片拼接复原模型和算法,对附件3和附件4给出的中、英文各一页文件的碎片数据进行拼接复原.最后,联系现实中的情况,对还有可能出现双面打印文件的碎纸片进行拼接复原.在前两问的基础上,设计出相应的碎纸片拼接复原模型与算法,并附件5中双面打印文件的碎片数据给出拼接复原结果.在上述复原过程中,由于计算机的识别可能会出现偏差,那么就需要在拼接过程中进行必要的人工干预,在适当的时候我们会用干预的方式给出复原过程.并最终以图片形式及表格形式完成给出复原结果.具体结果在附件中给出.二问题的分析破碎文件的复原,最直接及最精确的就是人工拼接,但是当碎片的数量巨大时,人工方式就显得效率低下,所以就考虑把破碎文件运用计算机技术来帮助人们进行破碎文件的复原,让计算机在这个过程中发挥主要作用,但是用计算机处理,又不是百分之一百完美,因此在适当的时候也需要进行人工干预.本文运用碎纸片的自动拼接技术,对每个附件给出的碎片文字材料进行分析,尽可能减少人工干预,本文给出的图像数据均为形状、大小一样的规则长四边形,由于形状的一致性,所以在拼接时如果只考虑利用碎片的边界特征,直接拼接,显然效果不理想.考虑到使用计算机的拼接过程应该与人工拼接过程是相类似的,即拼接时不但考虑碎片边缘是否匹配,还要判断碎片内的字迹断线和文字内容是否匹配.然而根据现在已有的技术,实现计算机智能识字是几乎不可能的.但是我们可以获取图片所提供的像素信息,将其转化为矩阵,根据图像的像素矩阵值进行碎片拼接,用计算机去运行处理数据,可以想象其拼接效率无疑比单纯利用边界特征的方法好很多.以下是对各问题的详细分析:针对问题1,对附件1和附件2提供的数据,每页纸被切为19条碎片,对于这种单面的仅纵向切碎的文字文件,我们仅考虑碎片左右两侧的拼接.首先,在转换中发现,像素图片矩阵的值是介于0到255之间的一个像素矩阵,随着像素矩阵值的增加,我们发现随着像素矩阵数值的增大,所代表的区域越来越浅,最后255这个数值,代表了白色区域.其次,对于问题1中的附件1和附件2图片,由于仅纵向切碎的文字文件,仅考虑碎片左右两侧的拼接.需运用Matlab程序分别对附件1和附件2中的19个碎片计的像素矩阵,筛选出每个算其像素矩阵,将每个附件中19条图像转换成19个198072像素矩阵的第一列像素矩阵值,然后运用Excel软件统计各列像素值等于255的个数,可以粗略的认为所含255个数最多的列所对应的碎片则是拼接顺序中的左边第一条(如果有必要进行人工干预,但是本文第一问没有进行人工干预).接下来从左边开始选取第二条碎片,关于第二条待匹配的碎片,用先确定的第一条像素矩阵的最后一列,对其进行数值求和,然后将剩下的18个像素矩阵中的第一列和最后一列矩阵进行分别求和.将首先确定的最左边第一条矩阵中的最后一列矩阵与求出的18个像素矩阵中的第一列矩阵分别进行做差,然后将差值取绝对值,这样就可以得出,如果差值越小,其重叠的相似度也应该相对越高.这样可筛选得出相似度较高的碎片,即与第一个碎片相匹配,该碎片位于拼接顺序的第二条,确定第二条后,再用第二条的最右边矩阵并以此类推,逐一从左到右查询碎片,直到碎纸片的复原结果.针对问题2,在问题1的基础上,继续对所给的附件3和附件4进行分析.针对附件3和附件4的特点,附件3和附件4给出了碎片既横切又纵切的中英文图像,那么在拼接时就有两方面的考虑,既要满足横向匹配,又要满足纵向匹配.那么我们就考虑在问题解决中可以分为两步进行,首先考虑横向拼接,一旦横向拼接完成了,纵向拼接自然相对就好解决了.根据碎片像素矩阵特征和行距特征将其分类,再结合问题1的方法将各类碎片进行匹配,即可得到11个碎片横条.接着考虑纵向拼接,使用Matlab程序对得到的新的横条碎片进行像素分析,比较像素矩阵中第一行数据中255的个数,个数最多的碎片即是原文件的第一行,依次类推,同样的方法即可知道具体的排列顺序,从而得到碎纸片复原的结果.针对问题3,在问题1和问题2的基础上,继续对所给的附件5进行分析.实际生活中存在很多双面打印的文件,这些双面文件的碎纸片混合在了一起,当对其进行拼接复原时,首先要判断同一面的文字碎片,然后再进行拼接.附件5给出了碎片既横切又纵切的英文文字图像,那么在拼接时依旧有两方面的考虑,既要满足横向匹配,又要满足纵向匹配.首先考虑横向拼接,转换得到180x72的像素矩阵,这些是介于0到255之间的一个像素矩阵,随着图片的增加,相应的增多转换得到的像素矩阵,在问题2的基础上继续进行检验所给的碎纸片图,运用Matlab读取了418张碎片图后,将每张碎片转换得的像素矩阵的第一列以及最后一列各自取出,通过程序进行验证,可以算出匹配度高的相邻碎片,此时进行一次人工干预,拼接出位于同一行的碎片横条;接着考虑纵向拼接,运用Matlab程序对得到的新的横条碎片进行像素分析的提取,配准各个横条的像素矩阵的第一行与最后一行的相关度,综合分析碎纸片上英文之间的行距,进而确定拼接的碎片横条位于哪一行,得到最终的复原结果.综上所述,以上三个问题的解决流程可用下面的流程图表示:图2 问题解决流程图三模型假设准备与符号说明3.1模型的假设1、假设碎纸机把一页印刷文字文件碎成形状规则,大小一样的碎片,看做形状、大小相同的长方形.2、在碎纸过程中,只考虑文字被切开,不考虑文字笔画的丢失、碎片添加的任何痕迹等.3、假设文档碎片的文字的方向已经确定(按照阅读标准确定,从左向左右,自上而下),不考虑碎片图像的旋转问题.4、图片在复原的过程中,不考虑图片像素的改变,只考虑碎片相对应的固定像素值的匹配问题.3.2 模型准备不规则几何文档碎纸片计算机拼接的方法一般利用碎片边缘的尖角特征、尖点特征、面积特征等一些几何特征,搜索与之匹配的相邻碎纸片进行拼接,这种基于边界的几何特征的拼接方法并不适用于边缘的形状相似的碎纸片.对于这类边缘相似的碎纸片的拼接问题,理想的计算机拼接的过程与人工拼接的过程类似,即拼接时不仅要考虑拼接碎纸片的边缘是否匹配,还要判断碎纸片内的文字字迹断线或文字内容是否匹配,但是由于理论和技术的限制,让计算机具备类似于人的的那种识别碎纸片边缘字迹断线、以及理解碎纸片内文字图像的含义的智能几乎是不太可能的.但是利用现在已有的技术,完全可以获取到碎纸片文字所在行的几何特征信息,如文字行的行高及间距等信息.如果利用这些信息进行碎纸片拼接,其拼接的效率就比单纯利用边界的几何特征方法更好.根据本文题设要求,经考虑分析,本文采取转换矩阵数组元素拼接的技术对破碎的文字文档进行拼接复原.由于计算机数字分析图像能力方面的存在一定的缺陷,让计算机对碎纸片进行完全意义上的自动化拼接页几乎是不太可能,为保证其拼接的准确性,需要在拼接的过程中加入一定的人工干扰过程.一般来说,先利用计算机搜索出于目标碎纸片相匹配的未拼接碎纸片,并根据匹配的程度按顺序到得待选的碎纸片,然后人为地进一步分析结果进行舍弃或拼接待选碎纸片[3].一页文字文件的碎片拼接复原相当于全景图的生成技术,而相邻图像的配准及拼接是该技术的关键.图像的拼技术一般分为基于图像特征的方法和基于图像灰度的方法.特征提取的方法通常涉及大量的几何与图像形态学的计算,计算量大,没有一般的模型可遵循,但需要针对不同的应用场景来选择各自适合的特征,所提取的图像特征包括更高层的语义信息,基于特征的方法具有尺度不变性和放射不变形.然而基于图像灰度的拼接方法简单简单易行,并且其数字统计模型以及收敛速度、定位精度等均具有定量的分析和研究结果,此类方法得到了广泛的应用.本文中的文字图像中文字区域的文字结构相对单一,并可能出现相同或相似的字符,因此文字容易出现匹配出现误差.对于文字左右拼接的情况,可以对图片中划分的每行文字进行分析处理,通过提取文字图片的边缘像素矩阵,得到文字出现在图片边缘的那一行高,进一步对一行行的文字拼接复原,这也有利于获取更精确的配准结果.基于文字的图像灰度的方法不需要提取文字图像的相应的特征,只以两幅图像相连接部分对应的像素灰度的相似性准则来寻找图像的匹配位置.待匹配的图像,首先求出图像中最左边一列的像素矩阵值之和,和最右边一列像素矩阵之和。
碎纸片还原问题求解
185 2 0 5 204 0 0 4
186 0 8 5 205 1 0 1
187 1 5 2 206 1 1 3
188 1 6 5 207 1 9 4
189 0 2 7 208 1 1 9
190 0 6 0 209 1 2 3
编号
…
顺序
…
编号
…
问题三的求解: 用求绝对差的算法匹配点对,后期运用欧式距离进行 检验匹配度. 步骤一 运用Matlab程序对418个碎片图像进行像素矩阵转换 计算,得到418个180 *72的矩阵,提取所得每个像素矩阵 的第一列像素矩阵和最后一列像素矩阵,即均为 180*1的 像素矩阵. 步骤二 对得到418个第一列像素矩阵和最后一列像素矩阵分 别进行列求和,然后分别存放在矩阵D和Dt中,接下来用 Dt的每一项依次减去D的每一项之后并求绝对值,得到一 个矩阵M.
0 1 0
0 0 2
0 1 6
0 0 1
0 0 4
0 0 5
0 0 9
0 1 3
0 1 8
0 1 6
0 0 1
0 0 4
0 0 5
0 0 9
同理得到附件2的拼接复原文件,拼接顺序如下表所示:
表4 附件2文件的复原拼接结果
顺序
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
编号
0 0 3
符号说明
Dn ————相对应的像素绝对差值
Sn (i, j ) ——像素矩阵的像素值
aij
————第i个碎片最后一列与第j个碎片第一列的图像矩阵值
碎纸片的拼接还原研究
碎纸片的拼接复原摘要碎纸片的拼接复原是一门借助计算机,把大量碎纸片重新拼接成初始纸张的技术。
针对问题一,本文首先利用碎纸片图像灰度矩阵的边缘矩阵,建立了两个碎纸片之间的匹配度函数,求得了每一张图片之间左右边缘匹配度矩阵。
然后根据左边边缘位置的碎片的左边空白部分最多的特点,确定了左边位置的碎纸片。
接着根据拼接碎纸片的拼接复原时,所有碎纸片匹配度之和取极大值的原则,采用贪心算法,得到了所有碎纸片的初始位置,拼接复原了附件1和附件2中纸片。
针对问题二,由于附件3碎片数量太多,并且碎片的拼接复原,是一个以碎纸片总匹配度为目标函数的组合优化问题。
所以本文采用遗传算法将碎纸片的编号作为基因,并将基因均匀分成19段,按顺序每一段对应一个初始纸片列位置,进行了求解。
然后,根据边缘碎纸片某些边的空白部分多的特征,对初始基因进行了优化。
接着,根据碎纸片的黑色像素密度不同的特点,将碎纸片分成三类,根据同类纸片优先匹配的原则,对遗传算法的运行过程进行了优化,拼接复原了附件3和附件4中纸片。
针对问题三,随着碎纸片量的增多,计算量急剧增加。
在上述拼接复原碎纸片的基础上,又引进了同行位置碎纸片的上部(或下部)空白位置宽度相近的聚类思想。
先对每个类内部拼接,在合并所有类并做一次整体拼接。
由于时间有限,我们未能完成最后一次的整体的拼接,但我们会在比赛后继续探究。
关键词:边缘矩阵匹配度函数遗传算法聚类一、问题重述碎片拼接实际用途已经越来越广泛,传统上拼接复原工作由人工完成,碎片拼接的准确率较高,但效率很低。
并且当碎片数量很大时,人工短时间内拼接出来几乎是不可能的。
所以开发碎纸的拼接技术,以提高拼接复原效率已成为越来越多人的期望。
现在,在碎纸片是规则的情况下,题目要求我们在以下条件建立碎纸片拼接复原模型和算法。
1.来自同一页印刷文字文件(中文、英文各一页)的碎纸机破碎纸片(仅纵切)拼接复原,并将附件1和附件2复原。
2.对碎纸机既纵切又横切文件的情形,将碎纸片拼接完整。
碎纸片拼接复原解题思路
碎纸片拼接复原解题思路一、背景介绍碎纸片拼接复原是一项需要巧妙操作和观察力的游戏。
在这个游戏中,玩家需要拼接一些碎纸片,使其还原成完整的图案。
这个任务名称为“碎纸片拼接复原解题思路”。
二、游戏规则碎纸片拼接复原的游戏规则一般如下: 1. 给定一些碎纸片,每个碎纸片上都有一部分图案。
2. 碎纸片上的图案可能是图片、文字、颜色等。
3. 玩家需要根据碎纸片上的图案,将其拼接在一起还原成一个完整的图案。
4. 拼接时,碎纸片之间必须符合一定的拼接规则,比如图案的延续、颜色的衔接等。
三、解题思路要解决碎纸片拼接复原的问题,可以采取以下的思路: ### 1. 观察碎纸片首先,我们需要仔细观察每一个碎纸片,分析其图案、颜色以及可能的拼接方式。
这可以帮助我们理解整个图案的构成和拼接规则。
2. 找出连接点接下来,我们需要找出能够将两个碎纸片连接在一起的连接点。
连接点可能是某个图案的延续,或者是两个图案相衔接的部分。
通过找出连接点,我们可以确定碎纸片之间的拼接方式。
3. 确定连接顺序在找到连接点后,我们需要确定碎纸片的连接顺序。
这可以通过观察碎纸片上的图案延续和颜色衔接来判断。
我们可以先找到一个碎纸片,然后找到与之相连的碎纸片,并将其拼接在一起。
然后,再找到与已经拼接好的碎纸片相连的碎纸片,逐步拼接完成整个图案。
4. 拼接碎片根据确定的拼接顺序,我们可以开始拼接碎纸片了。
将每个连接点对齐,确保拼接的效果与原图案尽可能接近。
可以使用胶水或其他粘合剂来固定碎纸片,以确保它们不会松动。
四、技巧和注意事项在解决碎纸片拼接复原问题时,还需要注意以下几个技巧和注意事项: 1. 仔细观察:细心观察碎纸片上的图案和连接点,可以帮助我们找到正确的拼接方式。
2. 缓存碎片:将已经拼接好的碎纸片暂时存放在一边,以便于找到下一个相连的碎纸片。
3. 小步拼接:将拼接过程分成小步骤,逐步完成拼接,可以降低出错的概率。
4. 调整拼接角度:如果遇到无法拼接的情况,可以尝试旋转碎纸片,调整拼接角度,找到合适的连接点。
碎纸片的拼接复原
碎纸片的拼接复原班级:一班成员:陈腊梅:1109401010 蔡越萍:1109401004 游露:1109401041一、背景破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
二、问题分析文档碎片的边缘形状对拼接复原的结果有着重要的影响。
常见的计算机拼接方式一般先考虑边缘的尖角、尖点及面积等特征,在利用碎片边缘的几何特性搜索与之匹配的相邻的碎纸片。
而问题中所给出的碎纸片均由碎纸机有规律的纵切、横切,使得来自同一页的破碎纸片均有相同的大小和规则的边缘形状,所以基于边界几何特征的方法并不适用于这种边缘形状相同的碎纸片。
针对附件当中既有汉字,也有英文的情况,在拼接时就要考虑碎纸片内文字内容的匹配情况,然而计算机在短时间内具有人工拼接时识别及理解文字图像含义的能力难度很大。
利用计算机以及MATLAB中的图像处理工具箱却可以较容易的分析获得文字的几何特征,比如文字的高度、文字间距等信息,在匹配时也可以充分利用碎纸片边缘像素点的连续性,从而不需要让计算机去匹配文字的内容,而仅仅考虑边缘文字的形状特征。
这样可以有效提高拼接的效率,但是由于碎纸片边缘形状相同,某些纸片边缘的灰度值完全相同,从而导致匹配的纸片不唯一,可以有多种选择,让计算机对碎纸片进行全自动化拼接还要保证拼接的准确性,实现起来可能性不大,因此需要在拼接过程中加入人工干预。
一般先根据建立的模型及算法给出待选的匹配碎片,在利用人工进行进一步的分析,对不唯一的待选碎片进行舍弃,正确选择待匹配的碎片。
对于问题1,可以利用相邻纸片边缘像素值相似的特性,提取每一张图片文件的左,右两侧边缘像素信息,通过逻辑异或逻辑运算对图片边缘进行点对点的匹配,建立了基于灰度信息的特征匹配模型,对附件1和附件2的碎片数据进行拼接复原,通过计算机模拟,在没有人工干预的情况下,全自动的实现了快速复原。
碎纸片的拼接复原问题大学生数学建模全国一等奖
碎纸片的拼接复原问题摘要为解决碎纸片的拼接复原问题,我们通过定义差异度指数、高度差,建立0-1规划模型,使用聚类分析、MATLAB搜索算法和人工干预等相结合,得到了所有附件复原序号和复原图片。
针对问题一,首先提取附件1、2中所有碎片左侧和右侧边缘灰度,通过任意列碎片右侧和任意列碎片左侧的边缘灰度差值可以定义差异度指数,从而得到差异度特征矩阵,然后建立0-1规划模型,以第i张碎片右侧与第j张碎片左侧差异度最小为目标函数,以第i张碎片右侧与第j张碎片左侧是否相连为决策变量,以每张碎片右侧一定与某张碎片左侧相连、每张碎片左侧一定与某张碎片右侧相连为约束条件。
算法为先提取任意张碎片边缘灰度值,得到差异度矩阵,带入规划模型中,通过LINGO软件找到中英文碎片的拼接方法,得到复原序号如表一、表二,从而得到出中文与英文复原图片。
表一:中文碎片的复原序号表二:英文碎片的复原序号片拼接方法。
结果表明两种方法得出的中英文复原顺序相同,复原图片相同,同时人工检验中英文复原图片中无明显语法、单词错误,证明复原图片准确。
针对问题二,由于每张碎片有左侧、右侧和上侧、下侧,与问题一相同,可以定义两个差异度指数,建立双目标0-1规划模型。
但由于差异度矩阵过大,决策变量复杂,我们又建立了改进的简化模型,定义高度差,运用聚类分析方法,按照高度不同将所有碎片分为18类,然后再以第j块碎片左侧与第i块碎片右侧的差异度最小为目标函数,以第i块碎片右侧与第j块碎片左侧是否相连为决策变量,以每块碎片右侧一定与某块碎片左侧相连、每块碎片左侧一定与某块碎片右侧相连,满足高度差阈值为约束条件,建立单目标0-1规划模型。
算法为先提取任意块碎片边缘灰度值和高度,得到差异度矩阵,编程将中文碎片按高度分为18类,人工干预分为11行,再利用问题一中碎片纵向复原方法,得到中文复原序号,画出中文复原图片。
(英文复原模型相似,仅高度差阈值不同)针对问题三,对于双面英文碎片的复原问题,我们提出了单词残缺程度的定义,定量的描述了英文碎片的特征信息,构成了算法的核心内容,运用编程和人工干预将碎纸片分为11类,每类19个碎片,在此基础上利用前两问所建的0-1规划模型,再加上双面的一些约束条件,得到双面英文复原序号,并绘出英文双面复原图片。
碎纸复原算法
碎纸复原算法概述碎纸复原算法是一种用于将碎纸片恢复成原始文件的技术。
在实际应用中,碎纸复原算法常常用于司法调查、情报分析等领域。
该算法通过对碎纸片进行特征提取、图像处理和模式识别等步骤,能够有效地还原原始文件的内容。
碎纸复原算法的步骤1. 碎纸片的收集与整理在进行碎纸复原之前,首先需要对碎纸片进行收集和整理。
这一步骤要求搜集到尽可能多的碎纸片,并将它们按照大小、颜色、形状等特征进行分类和整理,以便后续的处理和分析。
2. 碎纸片的特征提取碎纸复原算法的关键在于对碎纸片的特征提取。
通过分析碎纸片的边缘、纹理、颜色等特征,可以确定每个碎纸片的相对位置和旋转角度,并进一步推测出原始文件的结构。
常用的特征提取方法包括边缘检测、纹理分析和颜色分布等。
3. 碎纸片的图像处理在特征提取之后,需要对碎纸片进行图像处理,以便更好地还原原始文件的内容。
图像处理的主要目标是消除碎纸片之间的干扰和噪声,并将其转化为可以识别和拼接的形式。
常用的图像处理方法包括图像增强、去噪和图像配准等。
4. 碎纸片的模式识别与拼接经过特征提取和图像处理之后,下一步是对碎纸片进行模式识别和拼接,以恢复原始文件的内容。
模式识别的目标是识别出碎纸片之间的关联性,并将它们按照正确的顺序和位置进行拼接。
常用的模式识别方法包括形状匹配、模板匹配和特征匹配等。
5. 原始文件的恢复与重建最后一步是对拼接好的碎纸片进行原始文件的恢复与重建。
通过将拼接好的碎纸片按照正确的顺序组合起来,可以恢复出原始文件的内容。
在这一步骤中,可能需要对文件进行修复和修补,以确保文件的完整性和可读性。
碎纸复原算法的挑战与应用碎纸复原算法面临着一些挑战和困难。
首先,碎纸片的形状、大小和数量可能会有很大的变化,这给特征提取和模式识别带来了一定的困难。
其次,碎纸片之间的重叠和遮挡可能会导致信息的丢失和混淆,增加了算法的复杂性。
尽管存在一些挑战,碎纸复原算法在司法调查、情报分析和档案整理等领域具有广泛的应用前景。
碎纸片的拼接复原(1)
碎纸片的拼接复原摘要计算机辅助碎片拼接是模式领域中的一个典型问题,它是司法鉴定,文物修复等领域有着广泛的应用。
目前的研究都是针对不规则图片的复原,对规则图片的研究还有待实现。
本文主要是研究规则形图片的复原问题,规则形图片的拼接不能像不规则图片拼接那样考虑其形状等,所以我们考虑从边缘相似度方面进行处理。
对于问题一:基于余弦相似度的算法,先对图片进行数字化处理,利用matlab程序求出每个图片的灰度值,然后提取出每个图片的最左边缘和最右边缘的灰度值并进行归类处理。
根据灰度值,利用人工干预,挑选出完整拼接图的第一张图片和最后一张图片。
我们把挑选出来的第一张图片的最右边缘灰度值和剩下的图片的最左边缘灰度值采用了余弦相似度算法进行匹配,找到最大相似度匹配图片。
之后依次循环遍历找到所有图片的最大相似匹配图。
最后利用matlab图片拼接技术实现图片的复原。
5.1问题一模型的建立和求解本文主要是研究碎纸片的拼接问题,由附件分析可知,这些图片均为规则的,所以我们没有考虑图片的形状问题。
为了得到完整的碎纸片的拼接图,我们着重研究了碎纸片颜色分布特征。
5.1.1图片的数字化灰度值,实现图片的数字化。
灰度是根据matlab程序我们计算出每张图片的]1[指黑白图像中点的颜色程度,范围一般从0到255,白色为255,黑色为0。
5.1.2图片的预处理图片预处理的目的是提取碎纸片的边缘颜色分布特征向量,预处理的过程为:图像边缘灰度值的提取——灰度值进行分类图像边缘灰度值的提取:根据图片的数字化结果,我们把每张图片的第一列和最后一列的灰度值提取出来,作为这张图片的颜色分布特征,。
灰度值进行分类:根据提取出的灰度值,我们把每张图片的第一列灰度值归为一类,放入excel表格中,我们称为left表格,把每张图片的最后一列灰度值归为一类,也放入excel表格中,我们称为right表格。
5.1.3图片的提取一张完整的纸张的左右两边都有空白的地方即左右边界灰度值都为255,所以我们先进行人工选择,把这张纸的左右两边先挑选出来,根据灰度值分类,我们从left表格中找出灰度值全为255的那列,即为第一张图片,从right表格中找出灰度值全为255的那列,即为最后一张图片。
数学建模中的碎纸片拼接复原要点研究
数学建模中的碎纸片拼接复原要点研究嘿,你是不是也碰到过这样的一种场景?某天,不小心把文件弄坏了,纸张四分五裂,散落一地。
可能是你不小心掉了咖啡,可能是好奇心作祟,忍不住撕了某个文件,结果纸片就像乱七八糟的拼图一样,飞到天上,摔在地上,结果呢?你站在碎片堆里一脸懵逼,心里想着,“这怎么办?”你可以想象那种绝望的感觉,不是么?碎纸片拼接复原这事儿,虽然听起来有点疯狂,但它不仅仅是纸张的恢复,更是一种深层次的“重生”之道,充满了无限可能,简直就像是面对一堆零散的拼图,我们总能找到适合的解决方案。
看着那些纸片,你可能会想:“这就算了吧,反正都是碎片,哪里能拼得起来?”可是,事实是,解决这些碎片的方法其实有很多,数学建模的意义不就是什么?找到正确的方法和思路,让这些破碎的片段重新组合成一个完整的整体。
是不是有点像拼乐高?看似没有头绪,但只要找对了顺序,最后一切都能完美呈现。
你看,数学建模就有点这个意思。
对,那些碎片,它们可能是无序的,是乱糟糟的,可是只要你有了对的思路、方法,一切都能恢复如初,甚至超乎你想象的完美。
要说碎纸片的拼接复原,首先就得搞清楚什么是数学建模。
你得想象它不是一个万能的机器,它是一个思维工具,它能帮你捋清楚思路,找到其中的规律。
就像拼图游戏,你眼前散落的纸片就像是一个个信息块,散得毫无规律,似乎你根本无法看到整个画面。
但如果你能从碎片中抓住一些关键的联系,就能一步步找出这些碎片的拼接顺序。
所以,复原碎纸片的过程其实是一个“解谜”过程。
这其中不仅仅是纸张本身的重组,更是一个对空间、时间甚至是规则的深刻理解。
说白了,数学建模就像是给了我们一套“万能钥匙”,用它打开看似混乱的局面,找到通往完整答案的道路。
像拼图一样,首先得弄清楚每块拼图的形状,哪个角落是直的,哪个边缘是圆的,哪些部分应该放在一起。
这里面有很多学问,一旦你把规律摸清了,整个过程就像开挂一样,轻松自如。
可能会有人觉得:“哎呀,这个太复杂了吧,怎么能从一堆碎片中找到规律呢?”其实啊,碎纸片复原的关键就在于“分析”和“推理”。
B题碎纸片的拼接复原
B题碎纸片的拼接复原(总28页)页内文档均可自由编辑,此页仅为封面B题碎纸片的拼接复原摘要图像碎片拼接复原是借助计算机把大量的图像碎片重新拼接成初始图像的完整模型。
这一问题在考古、刑侦、古生物学以及壁画保存等方面具有广泛的应用。
要从成千上万的图像碎片中找到相互邻接的图像碎片,并最终拼接成完整的模型,需要用计算机和人工干预辅助相结合的方式来完成。
本文就对碎纸片的拼接复原问题进行分析研究,针对单面纵切,单面既纵切又横切,双面既纵切又横切纸片等情况的拼接复原问题,建立了相应的数学模型,并运用Excel、MATLAB等数学软件,分别对题目所提出的问题进行求解。
对于问题一,我们将碎纸片信息导入MATLAB软件中,得到每个碎纸片的像素值,并利用该像数值计算出碎纸片间拼接的候选权重C,再以该权重值)i,(j为依据对碎纸片进行配对,得到了碎纸片的拼接顺序,进而实现了仅纵切纸片时中、英文碎片的拼接复原。
对于问题二,我们首先筛选出了左右两侧有空白的碎片,并把剩余碎片的信息导入MATLAB中,按照问题一中的方法计算出候选权重;利用该候选权重对碎片的编号进行定位,得到了一个定位矩阵并将其导入到Excel中,在Excel中分析该矩阵,可得到一个最优的拼接次序;再进行人工干预,找到左页边的碎片编号并将其置于第一位,然后按照最优连接次序将碎片进行拼接,得一个完整的行碎片。
再对行碎片进行拼接,最优选择标准为:同一段落内行间距相同。
可以得到按段落划分的几个碎片。
此时进行人工干预,人为拼接为完整图片。
在本问中,由于中、英文字的差异,在对英文碎片拼接时本文只采用了候选权重法进行处理。
对于问题三,考虑到英文双面的数据过于庞大,本文先对数据进行分类,用MATLAB软件将处于同一行的碎片提取出来,分别存放在不同的文件夹中;然后再对文件夹内的数据进行候选权重的处理,按照问题二中的方法得到最优排列次序,按该排列次序拼接碎片得到了22个横向碎片,其中有11对正反面,再对这些横向碎片进行计算候选权重的处理,然后确定一个最优排列次序,完成图片的拼接。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i
的像素灰度绝对差值来衡量,即计算第1张图片的图像矩
阵的最后一列的像素值与待匹配图片的图像矩阵的第一列 的像素值的绝对差值的总和,计算公式如下:
Dn S008 (i,72) Sn (i,1)
i 1
1980
下面先对附件1进行讨论,可通过Matlab程序进行计算得 到它们相对应的像素差的绝对值,如下表的结果:
步骤五 通过上述步骤,初步拼接出11个碎片横条,输出成图 片,然后用Matlab读取这11张图的像素矩阵,运用同样的 思路分析配准像素矩阵的第一行与最后一行,匹配度较高 的应为相邻行,进而得出最终复原图像,部分排列顺序如 下表所示:
模型的评价:
优点: 从问题一到问题三、中文到英文由于难度的增加依次 将模型进行改进,给出了严谨的说明过程,可认为模型对 该类问题有很好的可用性。模型说明拼接过程中不需要人 工干预是不可能的。 缺点: 本文对每张图片计算其像素矩阵值,计算量大,实时 性不高.编程的不理想导致算法的图片匹配精确度不高和 鲁莽性差,同时由于使用了冗余的代码使得执行速度偏低 题目提供的附件碎纸片图都是均匀的横切或纵切,本 文设计的模型与算法没有能够解决对于倾斜或选择的图片 处理问题,拼接后导致的图像形变问题也没有涉及.
碎片编号 006
Dn
111883
碎片编号 013
Dn
119446
27544
84125
112468
11626
86740
附件1的拼接复原文件,拼接顺序如下表所示: 表2 附件1文件的拼接顺序
顺序
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
编号
0 0 8
0 1 4
0 1 2
0 1 5
0 0 3
纸片的拼接复原
成员:xxx
日期:2013年11月7日
引言:
破碎文件的拼接在司法物证复原、历史文献修复以及 军事情报获取等领域都有着重要的应用。传统上,拼接复
原工作需由人工完成,准确率较高,但效率很低。特别是
当碎片数量巨大,人工拼接很难在短时间内完成任务。随 着计算机技术的发展,人们试图开发碎纸片的自动拼接技 术,以提高拼接复原效率。碎纸片自动拼接复原技术现今 可以归结到计算机视觉和模式识别领域内的问题。
1、假设碎纸机把一页印刷文字文件碎成形状规则,大小一样的碎片,看
做形状、大小相同的长方形.
2、在碎纸过程中,只考虑文字被切开,不考虑文字笔画的丢失、碎片 添加的任何痕迹等.
3、假设文档碎片的文字的方向已经确定(按照阅读标准确定,从左向左
右,自上而下),不考虑碎片图像的旋转问题. 4、图片在复原的过程中,不考虑图片像素的改变,只考虑碎片相对应的 固定像素值的匹配问题.
0 0 6
0 0 2
0 0 7
0 1 5
0 1 8
0 1 1
0 0 0
0 0 5
0 0 1
0 0 9
0 1 3
0 1 0
0 0 8
0 1 2
0 1 4
0 1 7
0 1 6
0 0 4
问题2的模型建立及求解
问题2拼接时要满足横向和纵向匹配,分两步进行, 首先考虑横向拼接,运用Matlab程序对附件3给出的209 个碎片图像进行像素矩阵计算,每个图像得到一个 180*72 的矩阵,刷选出209个碎片图像中每个像素矩阵的 第一列像素矩阵和最后一列像素矩阵,即2个 180*1 的像 素矩阵.然后对得到209个第一列像素矩阵和最后一列像素 矩阵进行列求和.把上述的求和结果转换成一个 209*209 的矩阵:
编号…顺序…编号…
顺序 编号 顺序
… … …
172 0 7 1 191 0 8 9
173 1 5 6 192 1 4 6
174 0 8 3 193 1 0 2
175 1 3 2 194 1 5 4
176 2 0 0 195 1 1 4
177 0 1 7 196 0 4 0
184 1 7 0 203 1 1 7
n 1
N
模型建立与求解:
问题1的模型与求解:
步骤1 确定像素矩阵
运用Matlab程序分别对附件1和附件2中所给出的19张 碎片图像进行像素矩阵计算,每个图都对应得到一个 1980*72的像素矩阵.
步骤2 确定左边第一 列碎片
图1 附件1碎片最左边像素为255的个数
通过Matlab程序筛 选出每个像素矩阵的第 一列像素值,运用Excel 软件统计各列像素值等
a11 a 21 a209,1
a12 a22 a209,2
a1,209 a2,209 a209,209
其中第 i个碎片最后一列图像矩阵值和与第 j个碎片第 一列的图像矩阵值和的差的绝对值为矩阵中的元素 aij (I,j=1,2….209),比较筛选出矩阵中的第 i行所有元素的最 a ,则说明第 j个碎片的左边与第 i个碎片的右 小的一个 ij 边相匹配,这样就完成了附件3的横向拼接顺序,得到11 个新的横条碎片. 进行纵向拼接,对得到的所有新的横条碎片进行像素 矩阵计算,用Excel软件统计各个新横条的像素矩阵中第 一行数据中255的个数,得到个数最多的碎片是纵向拼接 顺序的第一个.
0 1 0
0 0 2
0 1 6
0 0 1
0 0 4
0 0 5
0 0 9
0 1 3
0 1 8
0 1 6
0 0 1
0 0 4
0 0 5
0 0 9
同理得到附件2的拼接复原文件,拼接顺序如下表所示:
表4 附件2文件的复原拼接结果
顺序
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
编号
0 0 3
部分行拼接结果如图所示
图2 附件3横向拼接复原图(1)
图3 附件3横向拼接复原图(2)
最后,由于只有11个横条,并且根据汉字的笔画特征 ,本文采取用人工干预的方式,对11个横条进行干预,逐 一确定,最终得到到附件3的拼接复原结果:
表5 附件3部分拼接复原结果
顺序 1 0 4 9 20 0 6 1 … … 2 0 5 4 21 0 1 9 … … 3 0 6 5 22 0 7 8 … … 4 1 4 3 23 0 6 7 … … 5 1 8 6 24 0 6 9 … … 6 0 0 2 25 0 9 9 … … … 13 0 1 1 32 1 6 3 … … 14 0 2 2 33 0 7 2 … … 15 1 2 9 34 0 0 6 … … 16 0 2 8 35 1 7 7 … … 17 0 9 1 36 0 2 0 … … 18 1 8 8 37 0 5 2 … … 19 1 4 1 38 0 3 6 … …
符号说明
Dn ————相对应的像素绝对差值
Sn (i, j ) ——像素矩阵的像素值
aij
————第i个碎片最后一列与第j个碎片第一列的图像矩阵值
i, j 1, 2, 209 和的差的绝对值 S,T 分别代表图像各个像素的灰度值,i , j 代表各个像素的坐标
模型准备:
问题的重述:
首先,对于给定的来自同一页单面印刷文字文件的碎
纸机破碎中、英文纸片(仅纵切),建立碎纸片拼接复原 模型和算法; 其次,在第一问的基础上设计出单面印刷文件既纵切 又横切的碎纸片拼接复原模型和算法; 最后,对还有可能出现双面打印文件的既横切又纵切 的碎纸片设计出相应的拼接复原模型与算法。
问题的分析:
步骤三 用matlab程序可以算出每一行(列)的最小值,并且 反馈出最小值所在的行数,此时认为左右像素矩阵的距离 最小即为匹配度较高的左右相邻碎纸片.这样可以粗略得 到关于文字行的关系,比较后初步得出部分用于拼接复原 文件其中一面的180张碎纸片.运算结果部分如下表:
步骤四 对418个碎片像素矩阵的第一列的白色边缘像素值 255进行统计,然后统计分析各个图像的白色边缘区域大 小,匹配出位于行首和行末的碎纸片.但是由于计算结果 存在误差,此时需要通过人工干预进行区分判断,将筛选 出的左右相邻碎纸片,运用行距分类以及组词成句的方法 干预拼接成一碎片横条.例如其中的一行的排列结果如下 图4、图5所示:
于255的个数.运算的结
果如下图:
步骤3 确定碎片顺序
对于本题中出现的形状、大小一样的相邻两块碎片拼
接,只需考虑两块碎片灰度的绝对差值.因此可运Matlab 程序建立以下模型:
对于待匹配的图像,像素矩阵像素的像素值 Sn (i, j )
, 表示行数, j 为列数,其连接区域的相似度可由相对应
表1 附件1碎片008与其他碎片的相素差的绝对值表
碎片编号
Dn
000 97181
001 110965 007 98983 014
002 116889 009 111394 015
003 124112 010 101593 016
004 107114 011 92901 017
005 78601 012 98493 018
185 2 0 5 204 0 0 4
186 0 8 5 205 1 0 1
187 1 5 2 206 1 1 3
188 1 6 5 207 1 9 4
189 0 2 7 208 1 1 9
190 0 6 0 209 1 2 3
编号
…
顺序