13年碎纸片拼接复原数模论文
碎纸片拼接复原的数学模型_杨武
121数学学习与研究2014.11碎纸片拼接复原的数学模型◎杨武李博(江苏南京农业大学工学院210000)【摘要】本文对碎片的拼接复原问题,建立了碎纸片拼接模型,编写matlab 程序,利用人机交互指令实现碎片的快速拼接.对2013年“高教社杯”全国大学生数学建模竞赛的B 题中所给11x 19个碎片文件进行拼接.【关键词】碎片拼接模型;matlab ;灰度值矩阵;Kmeans 聚类;人机交互一、研究背景及意义近年来,大量政府机关、企事业单位采用碎纸机对废弃文件或失效的机密文件进行破碎,这种破碎方法产生的碎片多为规则的.这使得在进行破碎文件的复原拼接时,只能根据文字内容进行匹配,为此,本文考虑应用当前的计算机识别技术开发碎纸片的自动拼接技术,对所有碎片搜索和筛选,寻找能够在某种指标上匹配的碎片进行拼接.提高拼接复原效率,从而大大降低人工工作量和难度.对碎片自动拼接问题的研究,不仅具有广阔的应用前景,而且具有很强的理论意义.二、图像碎片预处理首先,利用matlab 图像处理功能对碎纸片进行图像预处理.即将碎纸片数字化,转化为图片文件的数据.即一个二维数组构成的灰度值矩阵,这个矩阵存储着一张碎纸片各个像素点的颜色值,其中255表示白色,0表示黑色,图片中颜色均处在黑白、或黑白之间,图片数字化后的数字范围在0 255之间.三、碎纸片拼接模型的假设1.假设碎片原文件都存在上、下、左、右的页边距,且边距大于行间距和列间距;2.假设相邻碎片间纸张信息的损失可以忽略不计;3.假设碎纸机是沿平行或垂直于文字的方向对纸张进行切割的.四、碎纸拼接模型的建立1.挑出每行最左边的图片:根据图片的边缘留有空白部分的特性,挑选出图片最左边存在空白部分的图片作为左边界的候选图片.方法实现:计算图片左边距留白宽度:即可用灰度值矩阵中左端竖列上全为255(即左侧完全空白)的连续列数度量,由matlab 检测出每张图片的留白宽度.留白宽度排序:对上面得到的留白宽度进行排列,取排在前面的11张图片作为拼接过程的起始碎片.2.图片按行分类:根据Kmeans 聚类算法,对碎片进行按行分类.分类实现:①先根据底端一行是否为纯空白将209幅图分为下端有纯空白行和下端有被截文字两类.②对于空白行一类,下端空白行数相同或相近的纸条属于原文件同一行;③对于下端有被截文字的一类,下端被截文字高度相同或相近的纸条属于原文件同一行.④分析确定好的最左端图片的特征,依此为11个聚类中心,利用matlab 程序分类.3.对同行碎片进行拼接①拼配原则———突变数将所有的碎片进行处理后得到灰度值矩阵,分别记作M i (i =1,…,n )(n 为图片的数量)通过对每一张碎片的数据进行了分析,不难发现在每一张碎片上,同一行相邻两个点的像素值从0变为255或者从255变到0的比例仅有0.016%左右.将相邻两个像素值由0变到255或者由255变到0定义为一次突变.定义两张碎片的突变数如下:设Ri 为某张碎片M i 的最右侧一列像素值,L j 为另一张碎片M j 的最左侧一列像素值(Ri 和L j 均为180行的列向量),碎片M i 和M j 的突变数:T ij =∑180k =1flag (k )ij ,flag (k )ij =1R(k )i -L (k )j =2550R(k )i -L (k )j <{255,其中R(k )i 表示向量Ri 的第k 个分量,L (k )j 表示向量L j 的第k 个分量.②匹配过程以上面确定的最左边的碎片为起点,计算该碎片所在行的可能的碎片与其的突变数T.理论上T 值越小,两个图片的匹配的可能性最大,将T 进行由小到大的排序,在matlab 程序中让起始碎片优先与T 值最小的匹配,若匹配不成功再依次考虑T 值较大的,直至匹配成功.4.人工干预①人工干预时机:本文对209个已有碎片,分析发现若其余碎片与其的突变数仅有一个为0,则突变数为零的那个碎片一定与该碎片相匹配,一旦出现突变数均不为0,则需进行人工干预.②人工干预方法:为减少人工干预次数,做如下工作:1)计算碎片M i 灰度值矩阵最右一列Ri 与位于M i 行的其余碎片灰度值矩阵最左一列L j 的偏差平方和S 作为人工干预的指标:S =∑180i =1(Ri-L i )2.2)对偏差平方和S 由大到小进行排序,将碎片的序号放入集合US 中,S 大的最有可能与碎片M i 相匹配③在matlab 程序中让碎片M i 依次与集合US 中的图片进行匹配,每次对两个图进行匹配时,令命令窗口弹出这两个图匹配在一起的图片,进行人工观察.通过对拼接处文字字形和语义的分析,人工检查该匹配是否合理.5.纵向拼接①观察11条已拼好的横切纸条,根据所有纸条的上边缘特征确定位于原文件顶端的横切纸条,并以该纸条为起始纸条.②根据起始纸条的下边缘灰度值特征,利用上述步奏拼出整张文件.五、模型的评价与改进1.模型的优点:模型采用突变数和偏差平方和作为评价函数评定碎片间邻边的相关度,高效而且实用.能大大减少人工干预的次数.2.模型的局限性:由于研究的是碎纸机产生的碎片.该模型只考虑了对多个相同的形状规则的碎片进行拼接,且当碎片的数量增加且单个碎片的文字覆盖率越小时,更易产生灰度分布情况相似的碎片,需要进行人工干预的次数会相应增多.六、结论本文对碎纸片的匹配原则和人工干预进行了探讨和研究,建立了一个可靠高效的数学模型,利用图片数字化后数值之间的分布规律和相关度引入突变值和偏差平方和作为评价指标,利用matlab 软件实现快速拼接.并为了提高拼接准确性,巧妙地使用人机交互指令进行人工的检测干预.【参考文献】[1]何鹏飞,等.基于蚁群优化算法的碎纸拼接.计算机工程与科学,2011,33(7).[2]邓薇.MATLAB 函数速查手册.北京:人民邮电出版社,2010.[3]宋晓闯.基于灰度和几何特征的图像匹配算法研究.万方数据库,2013-09-13.。
关于碎纸片自动拼接的数学模型_数学建模竞赛优秀论文
毕业论文声明本人郑重声明:1.此毕业论文是本人在指导教师指导下独立进行研究取得的成果。
除了特别加以标注地方外,本文不包含他人或其它机构已经发表或撰写过的研究成果。
对本文研究做出重要贡献的个人与集体均已在文中作了明确标明。
本人完全意识到本声明的法律结果由本人承担。
2.本人完全了解学校、学院有关保留、使用学位论文的规定,同意学校与学院保留并向国家有关部门或机构送交此论文的复印件和电子版,允许此文被查阅和借阅。
本人授权大学学院可以将此文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本文。
3.若在大学学院毕业论文审查小组复审中,发现本文有抄袭,一切后果均由本人承担,与毕业论文指导老师无关。
4.本人所呈交的毕业论文,是在指导老师的指导下独立进行研究所取得的成果。
论文中凡引用他人已经发布或未发表的成果、数据、观点等,均已明确注明出处。
论文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的研究成果。
对本文的研究成果做出重要贡献的个人和集体,均已在论文中已明确的方式标明。
学位论文作者(签名):年月关于毕业论文使用授权的声明本人在指导老师的指导下所完成的论文及相关的资料(包括图纸、实验记录、原始数据、实物照片、图片、录音带、设计手稿等),知识产权归属华北电力大学。
本人完全了解大学有关保存,使用毕业论文的规定。
同意学校保存或向国家有关部门或机构送交论文的纸质版或电子版,允许论文被查阅或借阅。
本人授权大学可以将本毕业论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存或编汇本毕业论文。
如果发表相关成果,一定征得指导教师同意,且第一署名单位为大学。
本人毕业后使用毕业论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为大学。
本人完全了解大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存或汇编本学位论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版,允许论文被查阅和借阅。
关于碎纸片自动拼接的数学模型_大学生数学建模竞赛优秀论文 精品
关于碎纸片自动拼接的数学模型摘要本文针对生活中破碎文件的拼接难度大,效率低等现象,从题目所给的情形出发,利用计算机软件把碎纸片图像转化为数字图像,综合运用matlab 软件中的数字图像处理方法,建立了以图与图之间的相似程度为基准的数学模型。
这个模型的评价标准很简单,就是相似度函数的值。
通过比较图像与图像之间的相似度函数的值的大小,就可以得出碎纸片的具体拼接序列。
对于问题(1),首先,用matlab 软件的imread 函数对图像的进行读取,得到数据矩阵为),(y x F i 。
其次,根据模型的假设(1),找到最右端的碎纸片,并记为),(1y x F 。
然后,以数据矩阵),(y x F i 为基础,引入相似度函数)(b sim ,并求 出相似度函数值。
最后,用matlab 工具箱中的sort 函数把所得到的相似度函数值进行排序,所得到的相似度函数值最小的图像即为与最右端的碎纸片匹配的图像。
如此重复18次,即可得附件1的中文图像的排列序号,结果如表1所示。
同理可得附件2的英文图像排列序号,结果如表2所示。
复原结果图片见论文附件的图1和图2。
对于问题(2),同样先找到最右端的11张图像和最上方的19张图像,根据图像的页边距特性确定原图像右上角的第1张图像。
利用问题(1)的算法可得最右端的11张图像和最上方的19张图像的排列序号。
然后,在问题(1)的算法的基础上,利用图像中的文字的固定间距去改进算法,缩小搜索范围,并在拼接完一行后显示一次结果,由于近似距离计算公式与人主观视觉差异,所以需要人机交互调整结果。
如此重复18次,即可得附件3的中文图像的排列序号,结果如表3所示。
同理可得附件4的英文图像排列序号,结果如表3所示。
对于问题(3),与问题(2)相似,只是碎纸片由单面变为双面。
因此在匹配图像时,引入两重相似度函数)(Q sim ,以确保正反两面能同时匹配。
同时每匹配5张图像显示一次结果,以增加人工干预次数。
碎纸片的拼接复原的数学模型
碎纸片的拼接复原摘要本文主要采用了模糊模型识别、灰度相关、傅里叶变换等方法对碎纸自动拼接进行了深入探讨。
文中主要结合司法物证复原、历史文献修复、军事情报获取这一背景,针对横纵切碎自动拼接展开探究。
提出一种基于最大梯度和灰度相关的全景图拼接法。
同时采用边界提取法使图像预处理达到最好的效果,期间采用傅里叶变换对图像进行处理,最后再利用匹配准则等方法处理图像的拼接。
最终应用模糊模型识别法建立模型,通过隶属函数的建立实现最终的碎纸拼接。
期间有些碎纸片计算机无法识别,需要进行人工干预,从而才能得到一副完整的复原图。
图像拼接的主要工作流程可以概括为以下三个步骤:(1) 对图像碎片进行预处理,即对物体碎片数字化,得到碎片的数字图像。
(2) 图像碎片匹配,通过匹配算法找到相互匹配的图像碎片。
(3) 图像碎片的拼接合并,将相互匹配的图像碎片拼接在一起得到最终结果。
针对问题一:将图像导入MATLAB 进行相应的转化,由于数据量较大,所以对数据进行优化提取。
计算提取数据的均值与方差,找出其模糊集,建立符合题意的隶属函数。
由于模糊集的边界是模糊的,如果要把模糊概念转化为数学语言,需要选取不同的置信水平(01)λλ≤≤ 来确定其隶属关系,从而实现纵切图像的全景拼接。
(如表一、表二)针对于问题二:由于是横纵切碎纸片,所得图像较多,采用提取像素法对图片进行灰度分析,通过中介量阈值的确定来找出像素点的差别,梯度值在这一过程中也是作为衡量两张碎纸片是否匹配的标准。
从而对数据进行处理,最后导入MATLAB 软件实现拼接。
(如表三、表四)针对问题三:它是在问题一和问题二上加深了难度,采用提取像素点,傅里叶变换,灰度相关、模糊相似优先比等方法对问题进行分析,通过(0,1)矩阵的简化运算以及傅里叶变换得到最后的结果,但对于傅里叶变换需说明一点,变换之后的图像在原点平移之前四角是低频,最亮,平移之后中间是低频最亮,也就是说幅角比较大。
此过程中同时也需要人工干预,最终实现拼接。
2013 数模国赛 B题 碎纸片的拼接复原
2013高教社杯全国大学生数学建模竞赛B题碎纸片的拼接复原首先分析问题:对于第一问分析如下对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
求matlab图像拼接程序clear;I=imread('xingshi32.bmp');if(isgray(I)==0)disp('请输入灰度图像,本程序用来处理128 *128的灰度图像!');elseif (size(I)~=[128,128])disp('图像的大小不合程序要求!');elseH.color=[1 1 1]; %设置白的画布figure(H);imshow(I);title('原图像');zeroImage=repmat(uint8(0),[128 128]);figure(H); %为分裂合并后显示的图设置画布meansImageHandle=imshow(zeroImage);title('块均值图像');%%%%%设置分裂后图像的大小由于本图采用了128像素的图blockSize=[128 64 32 16 8 4 2];%%设置一个S稀疏矩阵用于四叉树分解后存诸数据S=uint8(128);S(128,128)=0;threshold=input('请输入分裂的阈值(0--1):');%阈值threshold=round(255*threshold);M=128;dim=128;%%%%%%%%%%%%%%%%% 分裂主程序%%%%%%%%%%%while (dim>1)[M,N] = size(I);Sind = find(S == dim);numBlocks = length(Sind);if (numBlocks == 0)%已完成break;endrows = (0:dim-1)';cols = 0:M:(dim-1)*M;rows = rows(:,ones(1,dim));cols = cols(ones(dim,1),:);ind = rows + cols;ind = ind(:);tmp = repmat(Sind', length(ind), 1);ind = ind(:, ones(1,numBlocks));ind = ind + tmp;blockValues= I(ind);blockValues = reshape(blockValues, [dim dim numBlocks]);if(isempty(Sind))%已完成break;end[i,j]=find(S);set(meansImageHandle,'CData',ComputeMeans(I,S));maxValues=max(max(blockValues,[],1),[],2);minValues=min(min(blockValues,[],1),[],2);doSplit=(double(maxValues)-double(minValues))>threshold;dim=dim/2;Sind=Sind(doSplit);Sind=[Sind;Sind+dim;(Sind+M*dim);(Sind+(M+1)*dim)];S(Sind)=dim;end对于第二问于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
CUMCM2013-碎纸片的拼接复原(全国一等奖)
二.模型假设
1.假设所有附件中给出的碎纸片图像不存在重叠部分;
2
2.假设文件中的碎纸片没有缺失; 3.假设全部碎纸片形状相同且规整。
三.符号说明及有 i 个像素点 每张碎片横向有 j 个像素点
i
j
lij
d ij
Xk
i , j 处图象的灰度值
两碎纸片边缘灰度的偏差距离 任意纸片的右特征向量 任意纸片的左特征向量 中文碎片中心位置的高度
4.3 基于模式相似性测度的偏差距离模型 模式识别中最基本的研究问题是样品与样品之间或类与类之间相似性测度 3 的问 题, 我们采用近邻准则判断两张碎纸片图像边缘灰度信息的相似性, 将任意纸片 k k n 的右特征向量 X k 作为模板,用其他每一张纸片的左特征向量 Yt 模板做比较,观察与哪 个与模板最相似,就是模板的近邻,即 t 纸片排在 k 纸片的右边。 计算模式相似性测度的距离算法有欧式距离、马氏距离、夹角余弦距离等,针对中 英文文本,我们分别测试了不同的距离算法:
次优解 次优解
最优解
最优解
绝对距离在中文识别中的效果评价图
欧式距离在中文识别中的效果评价图
图 1 纸片特征匹配中最优解区分度对比 (横坐标为进行匹配的纸片序号,纵坐标为匹配距离)
当我们对中文碎纸片进行匹配时, 采用绝对距离及欧氏距离作为距离函数都具有较 好的区分度。从图像上可以看出,采用欧式距离,使得每张纸片的期望拼接对象,与潜 在会引起匹配错误的次优匹配对象具有更大的区分度,所以,一般情况下,采用欧式距 离作为距离函数会使得匹配效果更好,有趣的是,在作英文内容的纸片匹配时,情况相 反。 因此, 在之后的算法中, 我们将更灵活的使用这两种距离函数, 而不会固定为一种。 最终得到的附录一及附录二的图片排序表格如下所示:
2013全国数学建模竞赛B题优秀论文.
基于最小二乘法的碎纸片拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为0-1二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。
针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。
经计算,得到附件1的拼接结果为:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,00,06。
附件2的拼接结果为:03,06,02,07,15,18,11,00,05,01,09,13,10,08,12,14,17,16,04。
针对问题二,首先根据每张纸片内容的不同特性,对图片进行聚类分析,将209张图片分为11类;对于每一类图片,按照问题一的模型与算法,即列偏差函数最小则进行左右拼接,对于没有拼接到组合里的碎纸片进行人工干预,我们得到了11组碎纸片拼接而成的图片;对于拼接好的11张图片,按照问题一的模型与算法,即行偏差函数最小则进行上下拼接,对于没有拼接到组合里的碎纸片进行人工干预。
我们最终经计算,附件3的拼接结果见表9,附件4的拼接结果见表10。
针对问题三,由于图片区分正反两面,在问题二的基础上,增加图片从下到上的裁截距信息,然后进行两次聚类,从而将所有图片进行分类,利用计算机自动拼接与人工干预相结合,对所有图片进行拼接复原。
经计算,附件5的拼接结果见表14和表15该模型的优点是将图片分为具体的几类,大大的减少了工作量,缺点是针对英文文章的误差比较大。
关键字:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。
近年来,随着德国“斯塔西”文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
碎纸片拼接复原数模论文B
承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):重庆XX大学参赛队员(打印并签名) :1. 祝XX2. 冯XX3. 周XX指导教师或指导教师组负责人(打印并签名):张XX(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期: 20XX 年 X 月 XX 日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):碎纸片的拼接复原摘要图像碎片自动拼接复原是需要借助计算机把大量碎片重新拼接复原成初始图像的完整模型,这一研究在考古、刑侦犯罪、古生物学、医学图像分析、遥感图像处理以及壁画保存复原等方面具有广泛、实际的应用[1].本文主要解决碎纸机破碎文档的自动拼接复原问题.我们利用图像数字化技术,借助Matlab软件将图像转化为矩阵.通过建立数学模型,运用矩阵论、聚类分析方法、自定义相似度方法、遗传算法、字符分割和字符识别等方法,对数据进行处理,实现对图像碎片自动拼接,从而将所给碎片拼接复原为完整图像.问题一,我们首先把碎片图形进行二值化处理,根据所给纵切黑白碎片边缘的像素关系(相邻两张碎片,一张碎片矩阵右边的像素与另一张碎片左边的像素相同 ),我们采和自定义相似度算法,利用附件一和附件二求出碎片间的相似度,然后根据所需要满足的条件即相似度最大原则,建立了纵切碎片拼接模型一及其算法,运用Matlab编程实现该模型,并得到碎片复原结果(见表一表二).问题二,要实现快速准确的拼接复原纵横切碎片,在问题一的思路基础上,我们采用了模糊C的均值聚类方法,先对附件三所有碎片进行初步的分类,然后在自定义相似度算法上增加了约束条件,以此来排除有若干碎片在匹配时相似度相同的情形,建立了改进的中文纵横切碎片拼接模型二,同样利用Matlab软件求得碎片的复原结果(见表三).对于英文纵横切碎片的拼接问题,我们采用了字符切割和字符识别思想,即在碎片的二值化矩阵中选取适当大小的行与列,对碎片边缘的英文字母进行切割,与其他图片匹配合并,提取切割字母的特征(统计特征或结构特征),再利用字符识别的方法从得到的特征库中找到与待识别字符相似度高的字符,将两张碎片拼接在一起,先一行一行地进行拼接,再利用模型二横切碎片方法,利用Matlab软件求得碎片的复原结果(见表四).问题三,在处理双面打印纵横切碎片时,经分析发现两面图片最大的区别在于光滑度的不同,纸张的正面比反面要光滑,因此在模型二的基础上还需增加一步筛选工作,就是采用傅里叶变换将图像的二值矩阵从“空域”变为“频域”,再根据不同页面的频率范围,设定一段频率值,借助计算机将双面打印的碎片进行分类,分离出在同一页面的碎片.分离成功后再采用模型二对于英文碎片的拼接方法将碎片进行复原即可,通过这种方法求得碎片的复原结果.关键词:碎片拼接均值聚类方法相似度模型傅里叶变换一、问题重述背景:破碎文件的拼接和复原对于司法物证复原、历史文献再现和军事情报获取等方面都有极其重要的作用.于是碎纸片的拼接复原技术便成为图像处理与模式识别领域中的一个崭新典型的应用.图像配准是图像拼接复原的基础,而且图像配准算法的计算量一般非常大,因此图像拼接复原技术的发展很大程度上取决于图像配准技术的创新.本文将通过图像提取技术获取一组碎纸片的形状、颜色、文字等信息,然后利用计算机进行相应的处理从而实现对这些碎纸片的自动拼接复原.重述:该题研究的是如何对碎纸片进行拼接复原.传统上,拼接复原工作需由人工完成,准确率较高,但是效率低.随着计算机技术的发展,当碎纸片数量巨大的时候,人们试图开发碎纸片的自动拼接技术,以提高拼接复原的效率.问题1 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、2给出的中、英文各一页文件的碎片数据进行拼接复原。
碎纸片的拼接复原分析(最终)甄选范文
碎纸片的拼接复原分析(最终).(优选)基于多耦合规则的人机交互拼接模型摘要随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
本题就是求解破碎文件自动拼接问题,实际上就是通过数字处理技术将碎纸信息转化成计算机可以识别的数字图像信息,然后利用计算机进行相应的处理从而实现对这些碎纸片的全自动或半自动拼接还原。
题目共分为三个问题,第一个问题是对同一页单面印刷文字文件仅纵切的碎纸片进行拼接复原。
第二个问题是对同一页单面印刷文字文件既纵切又横切的碎纸片进行拼接复原。
第三个问题是对同一页双面打印文件既纵切又横切的碎纸片拼接复原问题。
前两个问题的文件又分为中英文两种情况。
三个问题由简到难,层层深入。
在求解问题过程中,首先利用图论概念与定义描述了图片的拼接问题,将问题转化为最优树寻找问题。
根据对中、英字符的分析,总结出中、英字符在书写上的异同,分别建立基线耦合、字宽耦合、边缘耦合、字符耦合、双边耦合、三边耦合等六种耦合拼接准则,尽量使得每一块碎片都有多种可用的耦合拼接方式。
将耦合准则根据关联程度进行优先级排序,每一块碎片的信息依次按照耦合准则优先级进行量化,从而多方式量化每一块碎片之间拼接的耦合程度,进而实现了碎片的自动最优拼接。
本题所建立的耦合准则拼接算法只需要随机选取一块碎片作为种子,经过不同耦合方式的筛选,可找到与之某一边具有较高耦合度的另一块碎片,拼接成为一块具有较大可信度的图像,再通过人工识别,判断所得的图片是否正确,并建立确定拼接集和排除拼接集,实现拼接图像的进化,再与用户交互。
对于碎片拼接过程的提出了交互审查式、人机交互式和混合式三种模式,并建立了包括拼接模式、拼接识别、拼接控制、信息显示等多种用户指令在内的指令库,即可通过简单的人工指令对程序进行控制,进而利用计算机对碎片进行正确的复原。
利用耦合准则拼接算法及人机交互过程实现了碎片复原过程的简化。
且本题所建立的模型可广泛应用与解决一维、二维、双面等问题。
碎纸片的拼接复原问题数学建模全国一等奖论文大学论文
碎纸片的拼接复原问题摘要为解决碎纸片的拼接复原问题,我们通过定义差异度指数、高度差,建立0-1规划模型,使用聚类分析、MATLAB搜索算法和人工干预等相结合,得到了所有附件复原序号和复原图片。
针对问题一,首先提取附件1、2中所有碎片左侧和右侧边缘灰度,通过任意列碎片右侧和任意列碎片左侧的边缘灰度差值可以定义差异度指数,从而得到差异度特征矩阵,然后建立0-1规划模型,以第i张碎片右侧与第j张碎片左侧差异度最小为目标函数,以第i张碎片右侧与第j张碎片左侧是否相连为决策变量,以每张碎片右侧一定与某张碎片左侧相连、每张碎片左侧一定与某张碎片右侧相连为约束条件。
算法为先提取任意张碎片边缘灰度值,得到差异度矩阵,带入规划模型中,通过LINGO软件找到中英文碎片的拼接方法,得到复原序号如表一、表二,从而得到出中文与英文复原图片。
表一:中文碎片的复原序号表二:英文碎片的复原序号片拼接方法。
结果表明两种方法得出的中英文复原顺序相同,复原图片相同,同时人工检验中英文复原图片中无明显语法、单词错误,证明复原图片准确。
针对问题二,由于每张碎片有左侧、右侧和上侧、下侧,与问题一相同,可以定义两个差异度指数,建立双目标0-1规划模型。
但由于差异度矩阵过大,决策变量复杂,我们又建立了改进的简化模型,定义高度差,运用聚类分析方法,按照高度不同将所有碎片分为18类,然后再以第j块碎片左侧与第i块碎片右侧的差异度最小为目标函数,以第i块碎片右侧与第j块碎片左侧是否相连为决策变量,以每块碎片右侧一定与某块碎片左侧相连、每块碎片左侧一定与某块碎片右侧相连,满足高度差阈值为约束条件,建立单目标0-1规划模型。
算法为先提取任意块碎片边缘灰度值和高度,得到差异度矩阵,编程将中文碎片按高度分为18类,人工干预分为11行,再利用问题一中碎片纵向复原方法,得到中文复原序号,画出中文复原图片。
(英文复原模型相似,仅高度差阈值不同)针对问题三,对于双面英文碎片的复原问题,我们提出了单词残缺程度的定义,定量的描述了英文碎片的特征信息,构成了算法的核心内容,运用编程和人工干预将碎纸片分为11类,每类19个碎片,在此基础上利用前两问所建的0-1规划模型,再加上双面的一些约束条件,得到双面英文复原序号,并绘出英文双面复原图片。
碎纸片的拼接复原_徐雅平
3)将具有 最 佳 相 似 度 碎 纸 片 对 象 X1 和 Xi 进 行 拼 接,作为新的对象 X1,并将 Xi 从集合 X 中删除。
4)重复执行步骤2和步骤3, 直 至 拼 接 后 的 Xi 最 右 侧的像素矩阵表示空白区域,即都为1。则在水 平 方 向 上
从右至左,继续重复执行步骤2 (此时相似度比 较 略 作 调
另外,对应原图中相邻两个碎纸片对象边界之间的 破碎字符具有一定的相似性。
因而,我们提出了以两个碎纸片图片对象左右侧边 界上像素之间的相似度比 较 为 基 础, 以 最 左 侧/最 右 侧 碎 纸片图片对象边界的白色区域作为终止比较判断的条件 的自动拼接复原方法。
模型假设 根据对问题一的分析,我们对其假设如下: 1)原 图 最 左 侧 边 界 部 分 为 空 白 无 字 符 区 域 ; 2)原 图 最 右 侧 边 界 部 分 为 空 白 无 字 符 区 域 ; 3)对原图有字 符 内 容 区 域 进 行 纵 切, 被 分 开 的 两 个 碎纸片对象的切口边界部分存在破碎字符。 符号约定 X:表 示 图 片 像 素 矩 阵 对 象 集 合 ; Xi:表 示 集 合 中 第i个 矩 阵 对 象 ;
·7 9 ·
第 14 卷 第 5 期 2013 年 10 月
碎纸片的拼接复原 Computer-aided Paper Fragments Reassembly
No.5Vol.14 Oct.2013
N:表示集合 X 的大小; Xi.left:表示 Xi 的最左侧列矩阵; Xi.right:表示 Xi 的最右侧列矩阵; (二 )模 型 建 立 和 求 解 对于问题一,其简要的模型建立和求解的过程可用 图1表示:
第 14 卷 第 5 期 2013 年 10 月
碎纸片的拼接复原数学建模论文
碎纸片的拼接复原摘要破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,拼接复原工作由人工完成,虽准确率高,但效率很低。
特别是当碎片数量巨大,人工拼接难以完成任务。
因此随着计算机信息技术的发展,开发一个碎纸片的自动拼接技术,并建立简便的拼接复原模型,提高拼接复原效率,具有重要的实现意义。
文章通过对所给的附件图片数据进行分析研究,在综合考虑了碎片边缘的尖点特征、尖角特征、面积特征等几何特征下,我们将图片读入电脑,并进行二值化转换,考虑边界值的匹配,建立了图片边界匹配模型。
依据模型,只要边界能匹配上就可以拼接,并依次解决了如下问题。
对于问题一,由于给定图片来自同一页印刷文字文件仅纵切破碎纸片,针对附件1、附件2给出的碎片数据,建立了碎纸片拼接复原的边界匹配模型。
根据模型,我们首先对附件1、附件2中的图片用Matlab软件进行二值转化,得到一个储存图片的二值灰度矩阵,并利用边界相关性比较法判断矩阵中两边界变量是否能匹配得上,如果匹配得上就拼接在一起,按此算法,附件1、附件2中的碎纸片就能拼接成功,具体的算法结果见附录中的附件1、附件2。
对于问题二,由于碎纸机既有纵切又有横切的情形,算法的设计上要相对复杂一些,我们在前面模型的基础上进行了修改和补充,对图片的上下左右的边界都进行了边界提取。
首先,我们选将图片作二值转换,分别用矩阵进行保存,然后任迁一个,对其余的进行全程扫描,按照问题一中的边界匹配模型,逐一对其边界进行扫描匹配,其间,有些矩阵的边界数据可能一样(如空白时),我们便跳出模型,进行适当的人工干预,干预完成,再进入模型进行迭代,按此方法便可拼接成功,具体的算法结果见附录中的附件3。
对于问题三,根据现实问题中的双面打印文件的碎纸片拼接复原问题,由于多了双面的问题,在算法的设计上,我们考虑了正反两的边界匹配,在原有模型的基础上,将问题一和问题二的模型相结合,建立一个新的双面碎纸片拼接模型。
碎纸片拼接数学模型
碎纸片的拼接复原问题模型摘要本文研究的是碎纸片的拼接复原问题。
针对碎纸不同的裁剪特点,我们运用相关性系数法、聚类分析法等建立不同的模型来解决不同裁剪特点和不同纸张的复原问题。
针对问题一,我们利用图像数字化技术,借助MATLAB软件将题目中附件1,2所给的图片转化为灰度值矩阵,并作二值化处理,然后取出每个矩阵第一列和最后一列,采用相关系数分析的方法,计算每第一列和每最后一列相关系数,根据相关系数的大小确定相邻的图片,逐步确定各张图片的顺序,最后得到复原的图片。
中文文档拼接的顺序为:8,14,12,15,3,10,2,16,1,4,5,9,13,18,11,7,17,0,6,中文文档复原的结果见附录1;英文文档拼接的顺序为:3,6,2,7,15,18,11,0,5,1,9,13,10,8,12,14,17,16,4,英文文档复原结果见附录2。
针对问题二,同样,在将图片二值化处理后,我们运用聚类分析法将纵横裁剪后的图片进行行分类,经过人工干预后,获得需要的矩阵尺寸,然后根据图片的特点运用图片的上下边界和左右边界进行二次匹配,直到找到大致正确的图片排序;同时在必要时,进行二次人工干预,直到获得正确的图片排序。
关键词:碎纸片复原图像数字化相关性系数聚类法1 问题重述1.1 问题背景碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
然而,传统的拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
本题即是通过一些模型算法开展对碎纸自动拼接技术的研究,具有重要的现实意义。
1.2 要解决的问题问题一:对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,要求写出干预方式及干预的时间节点。
碎纸片拼接复原
承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名) :1.2.3.指导教师或指导教师组负责人(打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(全国组委会评阅前进行编号):碎纸片拼接复原摘要本文主要是研究关于分割图片处理——汉字碎片拼接问题。
针对问题一,首先将附件1图片用像素表示并进行二值化量化处理,用迭代法求出最佳阈值,将抽象的图片用具体的0-1矩阵表达;其次根据像素值分布用MATALAB筛选出最左列碎纸片的编号为008;最后用欧氏距离法建立像素匹配模型,通过MATALAB直接得到中文的拼接图片(见附录一)及序列(见文中表一),不需要进行人工干预。
2013年高教社杯全国一等奖论文碎纸片的拼接复原
右边界矩阵
B _ right = [b _ right1,b _ right2,...,b _ right19 ];
b _ righti = (bi1, bi2 ,..., bi1920 )'
其中矩阵 B _ right 的每一列向量对应着每一碎纸片的左边界特征向量。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展 示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B
我们的参赛报名号为(如果赛区设置报名号的话):
20007002
所属学校(请填写完整的全名): 长沙理工大学
5
注:英文的主体字符表示如下红色阴影部分的行高:
5.2 问题一 针对问题一,对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),一共 产生了 19 条破碎纸片,每条碎纸片的像素尺寸为 1920× 72。通常对于切点两端的像素 点通常具有一定的相关性(见图 3)。
图3
如图一所示,假设位于图像中央的的黑色竖线为图片切线,可以发现对于非文字或 字母边界处的水平、竖直、空白或者斜线中心附近切点的左右两边图片的像素灰度相同, 只有在文字或字母笔画的边缘(灰度渐变处)或者呈一定角度的笔画切点左右像素的灰 度会有一定的差别,因此建立相关匹配拼接模型,对于问题一是一种行之有效的解决策 略。具体步骤如下(见图 4):
根据排版规则,每一张图片上的同种字符点阵都具有固定的行高和字符高度,且每 一行字符点阵的高度和行高均相等,且平行。因此首先确定纸张的行高和字符高度对后 文的字符识别及碎纸片分类具有重要意义。
2013数学建模基于灰度像素理论的碎纸片拼接方法
基于灰度像素理论的碎纸片拼接方法摘要常规的二维碎片拼接技术一直受到科研领域重视,它在司法鉴定、文物修复、图像处理等领域有着广泛的应用。
本文研究的是二维碎片拼接技术中最典型的文档类碎纸片拼接问题。
基于文档纸片色彩明确、方向一致、无重叠等特点,利用灰度理论对问题作出解决。
通过图形扫描得到图像,然后通过二值化,Sobel[]3梯度算进行预处理,并运用皮尔逊相关性度量及方差分析算法进行匹配,以实现对纸片进行还原。
本文通过MATLAB程序模型,以及图片像素灰度理论实现文档碎片的重新拼接.对于问题1,应用图像处理技术中的灰度理论建立了灰度模型I.在对得到灰度模型进行Sobel梯度边缘化预处理的方法进行模型改进,建立了边缘灰度模型II。
然后借助于皮尔逊相关系数算法和MATLAB软件,对附件中所提供的碎片进行排列拼接.对于问题2,采用化归思想,将二维问题渐变为一维问题。
首先归纳碎片特征运用MATLAB软件对碎片进行同行分类,得到11行19列的元素;采用方差分析算法和人工干预对各行中元素进行排列,得到11条横切的图形;采用方差分析算法和人工干预对其进行排列,得以还原。
本文的亮点在于对各行中元素采用方差分析算法进行左侧到右侧匹配后,同时增加了右侧到左侧的匹配检验,大大减少了人工干预的工作.关键字:灰度理论;皮尔逊相关系数算法;Sobel梯度边缘化;方差分析算法;人工干预一、问题的重述问题一、对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原.如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果以图片形式及表格形式表达。
问题二、对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
2013全国大学生数学建模竞赛B题-碎纸片的拼接问题
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
碎纸片的拼接复原问题
摘要
本文研究的是破碎文件的拼接复原问题。根据碎片仅为横纵切的情形,运用MATLAB软件对碎片图片进行灰度检测获取数据信息,得到各个碎片的边缘像素矩阵,引入匹配关联度,Байду номын сангаас关联度最大的两个边缘拼接在一起,进而建立了较为合理的碎片匹配规划模型。
针对问题二既有纵切又有横切的图片拼接复原问题,建立模型二。先根据模型一的方法,求出排在第一列的11个碎片图片,得到第一列部分碎片的拼接片段。基于每个碎片的行间距是一定的,引入行距接近度 , 定义为:任意两碎片的边缘行间距的和与固定行间距的差的绝对值。 越小,行距接近度就越大,拼接的准确性就越好;从而又得到另一部分碎片的拼接片段。此时,剩下3个碎片未进行拼接,这时就需要人工干预来完成第一列所有碎片的拼接任务。再运用MATLAB软件求出各个碎片的上下行间距,把上下行间距接近的碎片归为一行,从而把原209张图片分成了11行,结合模型一,用MATLAB软件对模型进行求解,确定出每组碎片的拼接顺序,由表7和表8所示,得到复原图如附图三和附图四所示。
1.2问题提出
本文需要解决如下三个问题:
1.对于碎纸机仅有纵切产生的碎纸片,建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
2.对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
碎纸片拼接复原的数学模型与优化
高职 院校应 定期对 指标 体系进 行考 核评 价 , 检查教 学管
理、 教 育教 学 、 师资 队伍 、 教学 研 究 、 硬 件建 设等 各 方面 是否
有 明显 的提 高或 改 善 ,并将 指 标改 进 的情 况与 学校 绩 效挂 钩, 并配 套制 定相 关激 励 措施 , 以助推 高职 院校 各 层面 开展 对标 管 理的 积极 性和 创造 力 。
人 工 手工 拼接 的优 势 在于 准确 性 高但耗 时长 , 相 比之 下 , 计
算 机 算法 进 行 的拼接 速 度快 也有 能 力实 现 大量 破碎 文 件 的 拼接, 而计 算机 为主 后期加 入人 工干 预 的方 法就 有更 强 的实
成为矩阵, 对矩阵的边界 向量进行匹配 , 最终得到完整有序
等) 或对 标合 作 , 根据 收集 的数据 和信 息并 进一步 分析 、 确 认 标杆 及对 标 管理 指标 。 ( 三) 比较指 标 , 分 析业 绩 差距 并采 取 改进 行动
( 五) 螺 旋式 持 续进 行对 标 管理
对标管理是一项基础管理工作 , 必须及时评价, 持续改
进。 通 过一 段 时 间的对 标 管理 工作 , 高职 院校 在 各项 指 标上
精、 更准、 更高 效 、 更科 学上 下功 夫 , 开展 新一轮 的对 标管 理 , 实 现新 的更大 飞跃 , 从 而不 断推进 高职 院校 教育 教学 工作 的
突 破和 提 升 。
参考文献:
整 改方 案 、 具体 实 施办 法 以及监 督 衡量 标准 , 分 析论 证 实施
方案的经济效益、 社会效益, 为后续的改进行动理清思路, 铺
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):重庆XX大学参赛队员(打印并签名) :1. 武XX2. 蒋XX3. 邹XX指导教师或指导教师组负责人(打印并签名):张XX(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期: 20XX 年 9X月 XX 日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):摘要本文主要解决来自于碎纸机的形状规格相同的纵切、纵横切、单面、双面文档的自动或半自动化的拼接复原问题。
针对问题一,附件一、二中所给碎片,均由纵向切割而成,碎片数量少,非相邻碎片间差异度大,图像颜色黑白明显,因此提取碎片二值图的左右边缘链码作为特征向量,建立碎片边缘相似度模型。
运用n 维向量的欧氏距离公式刻画碎片边缘列向量的相似程度,取其中最小距离,返回对应碎片序号,从而找到与上张碎片相接的下一张碎片,完成拼接复原,复原后序号排列见模型一求解,复原后图像见附录9.1(1)(2)。
针对问题二,附件三、四所给碎片改为纵切加横切,碎片变小、数量增多,部分碎片之间的区别不明显,对碎片进行平滑去噪处理后,建立层次聚类模型,将碎片的二值码函数()y x w n , 延x 轴投影到y 轴建立一维函数)('y w n以描述每一行的像素特征。
对此像素特征进一步处理后作为碎片横向聚类的依据,在拼接过程中必然会涉及两个边缘同时匹配,因此构建相邻两边乘积最小模型,复原后序号排列见模型二求解,复原后图像见附录9.1(3)(4)。
针对问题三,附件五所给碎片数量庞大,且难以将正反面图片分开,故可利用像素灰度和梯度(边缘)构造灰度-梯度共生矩阵H ,以提取能够反映碎片纹理特征的向量{}U I L F E T n ,,,,=。
其中E,H,L,I,U 分别表示图像能量、灰度熵、逆差距、惯性和灰度不均匀性。
再以特征向量n T 作为纸片聚类依据,将正反面纸片分开。
对于单面纸片拼接问题,仍借助数值链码匹配模型进行拼接。
一旦一面拼接完成,另一面也自然拼接成功。
复原后序号排列见模型一求解,复原后图像见附录9.1(5a )(5b )。
为了提高解决问题过程中的准确性,不断改进刻画边缘列向量相似度刻画指标,同时考虑页边距、行间距的特征,模型及算法更加科学,使解题过程更加顺利。
关键词:碎片拼接 欧氏距离 碎片边缘相似度模型 层次聚类模型一、问题重述碎纸机已经成为办公室不可或缺的部分,我们使用碎纸机对需要保密的重要文件、单据以及材料进行销毁,而事实上,在许多情况下,需要将已经破碎的文档重新恢复。
传统的人工拼接复原工作量大,效率低,且通常结果并不能让人满意,该题要求我们考虑通过建立数学模型和编写计算机算法对碎纸片进行恢复,具体要解决:1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
2. 对于碎纸机既纵切又横切的情形,设计出碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
3.对于双面打印文件的碎纸片、既纵切又横切的情形,设计出相应的碎纸片拼接复原模型与算法,并就附件5给出的碎片数据进行拼接复原。
二、问题分析碎纸自动拼接技术是图像处理与模式识别领域中的一个较新但是很典型的运用,它是通过扫描和图像提取技术获取一组碎纸片的形状、颜色等信息,然后运用数学方法和计算机编程软件进行相应处理从而实现对这些碎纸片的全自动或半自动拼接还原。
此过程一般包括图像数字化、图像预处理和图像拼接三个解题步骤。
对于问题一,要求我们拼接复原的是来自同一页印刷文字文件的碎纸机纵切破碎纸片。
碎纸片是我们可以直接通过肉眼观察到的具象事物,要实现计算机自动拼接,首先,我们肯定要将碎纸片输入计算机(本题可省略)并将之转化成为计算机可以识别且量化处理的计算机语言,即将图像数字化,因为所给碎纸片为黑白规则图像,所以考虑将其转化成为二值图像,即利用Matlab软件通过图像平滑技术对边缘进行去噪声处理之后将碎纸片转化成为一个只由0和1构成的二维矩阵(纯黑:0,纯白:1)。
然后取出每个碎片矩阵的第一列列向量和最后一列列向量,进行匹配处理,此时会加入一次人工干预,人工找出排在文章开头的碎纸片,接着用该碎片矩阵最后一列列向量逐一和其他碎片矩阵第一个列向量进行匹配,以此类推,依次找到相互匹配的碎纸片,最后就可以解决问题。
图1-1利用计算机复原碎纸片流程图对于问题二,问题二是在问题一的基础上深入和推广,首先利用图像腐蚀技术对边缘碎片进行处理,删除图片边界上的某些像素从而实现去噪并达到改善图像质量的目的;然后考虑到左上角碎片具有左边、上边白的特点,右上角碎片具有右边、下边白的特点,左下角碎片具有左边、下边白的特点,右下角碎片具有下边、右边白的特点,所以此时会加入一次人工干预,人工找出排在左上角的碎纸片;并通过人工干预找出上侧、左侧两个方向的碎片,进行排序,用碎片矩阵最后一列(横向)列向量逐一和右边的碎片矩阵第一个列向量(横向)进行匹配直至右边边缘碎片或者相似度小于已确定的阈值才结束;同理,用碎片矩阵最后一列(纵向)列向量逐一和左侧的碎片矩阵第一个列向量(纵向)进行匹配直至左侧边缘碎片。
接下来可以利用二叉树搜索方法从左上角碎片开始往下(或者往右)进行匹配,用碎片矩阵最后一列(横向)列向量逐一和右边的碎片矩阵第一个列向量(横向)进行匹配直至右边边缘碎片或者相似度小于已确定的阈值才结束,这样也就确定了左上角、横m位置上的图片,因为与其相邻向的上边、纵向的左边对应位置上的碎片,接着考虑22m(记的共有2条边,记边长为L像素,那么就可以根据相邻两边乘积最小的原则匹配出22m列)位置上的图片。
第j:行第iij问题三中所涉及到的碎片来自于同一张纸的正反两面,碎纸片数量翻倍,数据量庞大,所以建立起分行匹配模型,先初步将处于同一行的碎片分在一起,首先从上往下读取黑或者白边缘距离,然后在分行匹配时,只要满足上下边距离或者下上距离二者之一匹配,我们就可以把这两张图片分为一组,这样就减少了许多不匹配的图片,再采用更强的相似度判断模型,使行与行拼接更准确。
三、模型假设1、附件涉及到的碎纸片大小一致、形状规则、边缘整齐;2、未碎纸张的内容仅含文字,文字行方向沿水平方向,文字仅为汉字或英文3、页边距、行间距、字符与字符之间间隔、字符的字体字号保持不变;4、题目所涉及到的碎纸片是黑白图;5、每个附件中所给碎纸片均来自同一页纸质文档;6、每个附件中所给碎纸片没有缺失、没有多余;7、碎纸片在扫描过程中未掺入噪声,未产生形变。
四、符号说明五、模型的建立及求解1.问题一模型的建立与求解1.1问题一的模型建立1.1.1图像预处理的模型建立在使用扫描仪即可对纸质文档碎片进行处理,并输出BMP格式的原始图像f(x,y),然后对原始图像f(x,y)依次进行直方图均衡化和图像滤波处理。
1.1.1.1直方图均衡化的具体方法为原始图像为f(x,y),直方图均衡化处理后的图像为g(x,y),两者尺寸均为m×n,g(x,y)的灰度级变化范围是0~255。
首先,求出原始图像f(x,y)的灰度直方图,用256维的向量H(k)表示,H(k)被称为累积概率函数,则:H(k)=P(fk)=nk/N,k=0,1,2···255,其中,k指具体的灰度级,其取值范围是0~255,fk是原始图像f(x,y)中第k级的灰度值,P(fk)是第k级灰度值在原始图像f(x,y)中所占的比例,nk为原始图像f(x,y)中灰度值为k的像素个数,M为原始图像f(x,y)的像素总个数,N=m×n;其次,通过累积概率函数H(k),对原始图像f(x,y)进行均衡化映射,当原始图像f(x,y)=s时,则:当f(x,y)≠0时,g(x,y)= ,s=0,1,2···255,当f(x,y)=0时,g(x,y)=0,其中,s指不同的灰度级数,其取值范围是0~255。
1.1.1.2图像滤波处理的具体方法首先,对图像g(x,y)进行二值化处理,通过选取合适的阀值,得到二值化后的图像w(x,y),1,g(x,y)≥ThW(x,y)=0,g(x,y)≤Th其中,Th为图像的阀值。
其次,经过二值化处理后,在图像的左右和上相边缘处噪声比较集中,对之后的碎片提取造成影响。
根据噪声的位置特点,通过图像垂直投影和水平投影的方法将噪声加以消除,得到去噪图像。
水平投影法是指图像按列向X轴方向投影,统计的X轴上的黑点数,根据设定的阀值,黑点数少的位置认为是噪声,其值赋为白色,从而消除左右边缘处的噪声;垂直投影法是指图像按行向Y 轴方向投影,统计Y 轴上的黑点数,根据设定的阀值,黑点数少的位置认为是噪声,其值赋为白色,从而消除上下边缘处的噪声。
即噪声信号为n(x,y),去噪图像为e(x,y),则:e(x,y)=w(x,y)-n(x,y)。
1.1.2碎片边缘相似度的模型建立图像拼接是整个破碎文档恢复的核心。
以每个碎片矩阵首尾列向量中的每个元素的统计特性为依据,通过这些元素建立不同碎片之间的相互关系。
最终,根据由欧氏距离表达的最大相关性原则,将碎片图像逐一拼接在一起,实现文档的恢复。
经过图像增强后我们得到更为准确的二值图像,现在要开始进行最关键的步骤——图像拼接,在此过程中,需要引入一个指标来刻画两个进行拼接的边缘列向量的相似程度,于是运用欧氏距离(D)来描述这两个向量距离的远近,通过距离来反映他们的相似程度,距离越近,相似程度越高。