数学建模 碎纸片拼接优秀论文
基于图像处理的碎纸片拼接数学模型分析

基于图像处理的碎纸片拼接数学模型分析【摘要】本文基于图像处理技术,通过建立数学模型分析碎纸片拼接的过程。
首先介绍研究背景和研究意义,接着详细阐述数学模型的建立和图像处理方法的应用。
通过实验结果分析和误差分析,发现现有模型存在一定的问题,并提出模型优化方法。
总结研究成果,展望未来可能的研究方向。
通过本文的研究,可以更加深入地理解碎纸片拼接的数学模型,为相关领域的研究提供参考和帮助。
【关键词】碎纸片、图像处理、数学模型、拼接、实验结果、误差分析、模型优化、研究背景、研究意义、研究成果、未来展望。
1. 引言1.1 研究背景碎纸片拼接是一种常见的问题,它在实际生活和工程应用中具有重要意义。
碎纸片拼接可以用于恢复损坏的文件或图像,也可以用于数字化文物等领域。
在实际操作中,由于碎片形状、大小、颜色等的多样性,导致碎纸片拼接过程复杂且耗时。
基于图像处理的碎纸片拼接方法能够有效地解决这一问题,通过利用计算机视觉技术对碎纸片进行识别、匹配和拼接,实现自动化碎纸片拼接的目的。
目前,针对碎纸片拼接问题的研究已经取得了一定的进展,但仍然存在一些挑战和问题。
碎纸片的形状复杂多样,容易出现匹配错误或漏配现象;碎纸片之间可能存在重叠或遮挡情况,导致图像处理的难度增加。
有必要建立一个有效的数学模型,结合图像处理方法来对碎纸片拼接进行深入研究和分析。
本研究旨在探讨基于图像处理的碎纸片拼接数学模型,提出相应的算法和优化方法,为解决碎纸片拼接问题提供新的思路和方法。
1.2 研究意义碎纸片拼接是一个常见的问题,它涉及到图像处理、数学建模等多个领域。
通过对碎纸片进行拼接,可以恢复原始图像,这在很多场景下都具有重要的应用意义。
对于破损的文件进行修复、对于涂抹的照片进行修复等。
碎纸片拼接数学模型的建立和图像处理方法的应用,可以帮助我们更好地理解碎纸片拼接问题的本质,并且为实际问题的解决提供重要的理论支持。
通过对实验结果进行分析和误差分析,可以不断优化模型,并且为碎纸片拼接问题的应用提供更加精确和稳定的解决方案。
数学建模B题论文

碎纸片的拼接复原模型摘要本文主要问题是将附件中的所给的碎纸片按照一定的方法拼接复原。
通过一定的方法把碎纸片进行分组:题目给了四种类型的碎片,有长条形的,即全是竖切的中英文碎片,也有横竖都切的中文碎片,有横竖都切的单面英文碎片和横竖都切的双面英文碎片。
对于中英文长碎纸片分组拼接的问题,我们直接通过观察法,按照文字和字母的结构很容易完成了拼接。
对与中文横竖碎纸片拼接的问题,我们利用Matlab 编程并加入人工干预。
本文的主要拼接过程都是通过Matlab 软件实现的,通过Matlab 软件读取图片的信息,根据图像灰度的原理,图片包含着灰度信息,碎纸片左右的文字在纵切面上的灰度应该是完全对应的。
但把所有图片的灰度拿出来匹配是很不现实的。
于是我们想到可以通过灰度赋值,由于碎片中间文字的信息对于拼接是没有太大用途的,我们更关心左右切面的文字信息,即灰度信息。
因此将纵切面上的灰度矩阵的第一列和最后一列单独抽出,形成矩阵,然后设定一定的算法,通过Matlab 进行编程,相邻的两张碎纸片左右边缘信息匹配度非常高,其差值接近于0。
,,|p(i)p(j)|m n m n ρ=-编写的程序完全可以对所分的各组碎纸片进行拼接,而且效果非常明显。
对于英文碎纸片问题,我们采用了同样方法的分组,只是按照上下切掉的英文部分所占四线格的比例进行分组,此分组方法分组快且相对准确。
我们第二问中所编程序对英文碎纸片的拼接也完全适用。
对于双面英文的情况,也是按照上述思想方法进行分组,只是工作量稍微大些。
分组后我们也通过所编程序实现了双面英文的拼接复原。
关键词:碎纸片;拼接;图像灰度;灰度矩阵;分组1、问题重述论题给出了5个附件——反应了几种不同纸片破碎的情况,要求我们构建相应的碎纸片复原模型,以解决实际生活中出现的需要我们进行碎纸片复原的问题。
首先进行简单情况的碎纸片复原,即附件1中和附件2中的仅纵切的中英文19个碎纸片。
构建一个可以操作的拼接模型,将附件中的纵切纸片拼接。
2013全国数学建模竞赛B题优秀论文

基于最小二乘法的碎纸片拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为0-1二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。
针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。
经计算,得到附件1的拼接结果为:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,00,06。
附件2的拼接结果为:03,06,02,07,15,18,11,00,05,01 ,09,13, 10,08,12,14,17,16,04。
针对问题二,首先根据每张纸片内容的不同特性,对图片进行聚类分析,将209张图片分为11类;对于每一类图片,按照问题一的模型与算法,即列偏差函数最小则进行左右拼接,对于没有拼接到组合里的碎纸片进行人工干预,我们得到了11组碎纸片拼接而成的图片;对于拼接好的11张图片,按照问题一的模型与算法,即行偏差函数最小则进行上下拼接,对于没有拼接到组合里的碎纸片进行人工干预。
我们最终经计算,附件3的拼接结果见表9,附件4的拼接结果见表10。
针对问题三,由于图片区分正反两面,在问题二的基础上,增加图片从下到上的裁截距信息,然后进行两次聚类,从而将所有图片进行分类,利用计算机自动拼接与人工干预相结合,对所有图片进行拼接复原。
经计算,附件5的拼接结果见表14和表15该模型的优点是将图片分为具体的几类,大大的减少了工作量,缺点是针对英文文章的误差比较大。
关键字:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。
近年来,随着德国“斯塔西”文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
基于灰度像素理论的碎纸片拼接方法数学建模论文1 精品

基于灰度像素理论的碎纸片拼接方法摘要常规的二维碎片拼接技术一直受到科研领域重视,它在司法鉴定、文物修复、图像处理等领域有着广泛的应用。
本文研究的是二维碎片拼接技术中最典型的文档类碎纸片拼接问题。
基于文档纸片色彩明确、方向一致、无重叠等特点,利用灰度理论对问题作出解决。
通过图形扫描得到图像,然后通过二值化,Sobel[]3梯度算进行预处理,并运用皮尔逊相关性度量及方差分析算法进行匹配,以实现对纸片进行还原。
本文通过MATLAB程序模型,以及图片像素灰度理论实现文档碎片的重新拼接。
对于问题1,应用图像处理技术中的灰度理论建立了灰度模型I。
在对得到灰度模型进行Sobel梯度边缘化预处理的方法进行模型改进,建立了边缘灰度模型II。
然后借助于皮尔逊相关系数算法和MATLAB软件,对附件中所提供的碎片进行排列拼接。
对于问题2,采用化归思想,将二维问题渐变为一维问题。
首先归纳碎片特征运用MATLAB软件对碎片进行同行分类,得到11行19列的元素;采用方差分析算法和人工干预对各行中元素进行排列,得到11条横切的图形;采用方差分析算法和人工干预对其进行排列,得以还原。
本文的亮点在于对各行中元素采用方差分析算法进行左侧到右侧匹配后,同时增加了右侧到左侧的匹配检验,大大减少了人工干预的工作。
关键字:灰度理论;皮尔逊相关系数算法;Sobel梯度边缘化;方差分析算法;人工干预一、问题的重述问题一、对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果以图片形式及表格形式表达。
问题二、对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
CUMCM2013-碎纸片的拼接复原(全国一等奖)

二.模型假设
1.假设所有附件中给出的碎纸片图像不存在重叠部分;
2
2.假设文件中的碎纸片没有缺失; 3.假设全部碎纸片形状相同且规整。
三.符号说明及有 i 个像素点 每张碎片横向有 j 个像素点
i
j
lij
d ij
Xk
i , j 处图象的灰度值
两碎纸片边缘灰度的偏差距离 任意纸片的右特征向量 任意纸片的左特征向量 中文碎片中心位置的高度
4.3 基于模式相似性测度的偏差距离模型 模式识别中最基本的研究问题是样品与样品之间或类与类之间相似性测度 3 的问 题, 我们采用近邻准则判断两张碎纸片图像边缘灰度信息的相似性, 将任意纸片 k k n 的右特征向量 X k 作为模板,用其他每一张纸片的左特征向量 Yt 模板做比较,观察与哪 个与模板最相似,就是模板的近邻,即 t 纸片排在 k 纸片的右边。 计算模式相似性测度的距离算法有欧式距离、马氏距离、夹角余弦距离等,针对中 英文文本,我们分别测试了不同的距离算法:
次优解 次优解
最优解
最优解
绝对距离在中文识别中的效果评价图
欧式距离在中文识别中的效果评价图
图 1 纸片特征匹配中最优解区分度对比 (横坐标为进行匹配的纸片序号,纵坐标为匹配距离)
当我们对中文碎纸片进行匹配时, 采用绝对距离及欧氏距离作为距离函数都具有较 好的区分度。从图像上可以看出,采用欧式距离,使得每张纸片的期望拼接对象,与潜 在会引起匹配错误的次优匹配对象具有更大的区分度,所以,一般情况下,采用欧式距 离作为距离函数会使得匹配效果更好,有趣的是,在作英文内容的纸片匹配时,情况相 反。 因此, 在之后的算法中, 我们将更灵活的使用这两种距离函数, 而不会固定为一种。 最终得到的附录一及附录二的图片排序表格如下所示:
数学建模b题碎纸片的拼接复原

碎纸片的拼接复原【摘要】:碎纸片拼接技术是数字图像处理领域的一个重要研究方向,把计算机视觉和程序识别应用于碎纸片的复原,在考古、司法、古生物学等方面具有广泛的应用,具有重要的现实意义。
本文主要结合各种实际应用背景,针对碎纸机绞碎的碎纸片,基于计算机辅助对碎纸片进行自动拼接复原研究。
针对问题1,依据图像预处理理论,通过matlab程序处理图像,将图像转化成适合于计算机处理的数字图像,进行灰度分析,提取灰度矩阵。
对于仅纵切的碎纸片,根据矩阵的行提取理论,将每个灰度矩阵的第一列提取,作为新矩阵A1,提取每个灰度矩阵的最后一列,生成新矩阵B1。
建立碎纸片匹配模型: dai,bj=t=0m-1bti-atj2 ,其中i,j=0,⋯n-1。
p=0≤i≤n-10≤j≤m-1mind(ai,bj)将矩阵A1中的任一列与矩阵B1中的每一列带入模型,所得p值对应的i ,j 值,即为所拼接的碎片序列号。
将程序进行循环操作,得到最终的碎片自动拼接结果。
针对问题2,首先将图像信息进行灰度分析,提取灰度矩阵。
基于既纵切又横切的碎纸片,根据矩阵的行列提取理论,分别提取每个灰度矩阵的第一列和最后一列,分别生成新矩阵A2、B2;提取所有灰度矩阵的第一行和最后一行,分别作为新生成的矩阵C2、D2。
由于纸质文件边缘空白处的灰度值为常量,通过对灰度矩阵的检验提取,确定最左列的碎纸片排序。
在此基础上,采用从局部到整体,从左到右的方法,建立匹配筛选模型:dai,bj=t=0m-1btj-ati2 ,其中i,j=0,⋯n-1。
dci,dj=s=0n-1dsj-asi2 ,其中i,j=0,⋯m-1。
p=0≤i≤n-10≤j≤m-1mind(ai,bj),q=0≤i≤n-10≤j≤m-1mind(ci,dj)将矩阵A2中的任一列分别与矩阵B2中每一列代入模型,所得p值对应的i ,j 值即为横排序;将矩阵C2中的任一行分别于矩阵D2中的任一行代入模型,所得q值对应的i ,j值即为列排序。
科研课题论文:30904 基于图像处理的碎纸片拼接数学模型分析

数学论文基于图像处理的碎纸片拼接数学模型分析1.问题背景目前碎纸的拼接工作大部分是靠人工的方式完成,但是当碎纸片的数量巨大的时候,要人工拼接完成就很困难了。
国内对此技术的研究主要是集中于文物碎片的自动修复、虚拟考古、故障分析以及计算机辅助设计、医学分析等领域,除此之外,破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域也有只重要的应用。
常规的碎纸片拼接方法一般是基于碎纸片的边缘的形状特征比如尖点、尖角、面积等几何特征,再进行搜索与之相匹配的纸片从而完成拼接。
但是这种基于纸片边缘几何特征的拼接方法,当存在许多边缘几何特征相似的纸片的情况下,这种拼接方法就不适用了,因此,本文重在建立一种基于纸片中文字特征的模型来完成碎纸片的拼接。
2.问题分析碎纸片自动拼接技术是图象处理与模式识别领域中的一个较新但是很典型的应用,它是通过计算机扫描和图像提取技术获取一组碎纸片的形状、颜色、文字特征等信息,然后利用计算机进行相应的处理从而实现对这些纸片自动和半自动的拼接还原。
碎纸片自动拼接技术的关键包括图像的预处理和匹配,其中预处理的目的是把碎纸片表示为适合于利用计算机处理的形式。
预处理包括图像的获取和处理,对于边界特征明显的纸片可以进行边界检测,轮廓提取和表示。
而纸片的匹配技术是碎纸自动拼接中关键之关键,即利用建立好的模型并设计出算法对纸片进行特征识别和自动拼接。
问题中的碎纸片由于具有同样的边缘几何特征,因此不能采用常规的靠提取碎片边缘尖点、尖角以及面积的方式来对不同的碎片进行区分。
对于这类边缘相似的碎纸片拼接,理想的计算机拼接过程应与人工拼接过程类似,及拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配,然而由于理论和技术的限制,让计算机具备类似人那种识别碎片边缘的字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。
但是,利用现有的技术,完全可以获取碎纸片内部及边缘的文字几何特征以及纸片不同部分的颜色等信息,在自动拼接时,只要寻找到具有相同边缘特征的纸片即可。
碎纸片的拼接复原数学模型的构建

碎纸片的拼接复原数学模型的构建摘要院本文讨论在碎纸机以不同方式破碎纸片的情况下建立碎纸片的拼接复原模型,以解决碎片数量巨大时人工拼接的难题,本文建立了三个具有针对性的模型。
模型一:方差分析法下的碎纸片拼接模型。
在以纵切方式破碎纸片的情况下,提取碎纸片左右边缘的灰度列向量,利用碎纸片边缘处为单边同宽空白区域的特殊性对碎纸片进行定位,再利用方差分析法和欧式距离解决了纵切碎纸片的拼接复原问题。
模型二:文字行间距一致性的碎纸片拼接模型。
以纵横方式破碎纸片,利用同行文字行间距一致性的主要特性可解决横向碎纸片的拼接复原问题,简化了模型,将离散的像素灰度矩阵平均化处理,进而利用欧氏距离对碎纸片进行匹配,得到了碎纸片复原后的完整图片。
模型三:二值化Otsu 算法的碎纸片拼接复原模型。
本文从双面纵横破碎纸片的问题出发,建立了纸片二值化Otsu 法拼接模型,先对碎纸片分组预处理,为将复杂模型简单化,再利用全局阈值方法中典型的Otsu 法求取碎纸片的最佳阈值,以该阈值对碎纸片中所含灰度值信息进行划分实现二值化处理,将边缘区域明显化,利用统计学方法求取拼接后的纸片间成功匹配的像素点占纸片边缘的概率,最终双面纵横破碎纸片的拼接复原问题得以解决。
Abstract: This paper discusses the construction of splicing scrap recovery model under the condition of shredder breaking paper intopieces in different ways, so as to solve the problem of artificial splicing when there is a great amount of pieces. This paper establishes threecorresponding model.Model One: Paper Scrap Splicing Model under Analysis of Variance.Shredding paper through longitudinal mode, the paper selects the gray scraps of paper around the edge extraction column vector,locates the paper scrap by using edge of paper scraps as blank area with same width, then solves the problem of reconstruction of thelongitudinal cutting paper splicing through analysis of variance method and Euclid Distance.Model Two: Paper Scrap Splicing Model with Consistency of Text Line Spacing.Shredding paper through vertical and horizontal mode, its main characteristics of peer text line spacing consistency can solve theproblem of reconstruction of splicing transverse paper scraps, simplifies the model, processes the pixel matrix of discrete in average andmatches the paper scraps through Euclid Distance and then gets the complete picture of paper scrap afterrecovery.Model Three: Paper Scrap Splicing Model Based on Binaryzation Otsu Algorithm.This paper firstly expounds the double side's vertical and horizontal mode, establishes the paper scrap splicing model based onbinaryzation Otsu algorithm. The paper firstly does preconditioning for paper scraps into groups, simplifies the complex model, and then getsthe optimal threshold of the paper scraps by using typical Otsu algorithm of global threshold method. The paper classifies the gray valueinformationof paper scraps through this threshold to realize binaryzation processing, specifies the edge area, evaluates the probability ofsuccessful matching pixels on edge of splicing paper, and finally solves the mosaic and restoration problems of double side's vertical andhorizontal mode.关键词院离散;方差分析;置信区间;阈值;Otsu 算法Key words: discrete;analysis of variance;confidence interval;threshold;Otsu algorithm中图分类号院TQ018 文献标识码院A 文章编号院1006-4311(2014)25-0238-031模型一考虑以为空间拼接情况,为了获取拼接图像所必须的数据,文章以像素为单位离散所得碎片:利用VC++使用了Windows.H 头文件并调用RGB 等结构定义获得不同像素点的g 值[1],生成了多个灰度矩阵。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⎪
⎪
⎪
⎩ ������������������������ ≥ 0 ������ = 1, 2, . . . , 19 ������ = 2, . . . , 19 ������ ̸= ������
������ ̸= ������
首先找出������������������中数字0的位置(������, ������),则第������张为首张碎片,第������张为尾张碎片。再将 矩阵������������������ 导入������������������������������中,将11张碎纸片的首位从第������张到第������张按照最短距离逐个连接。
1. 问题一的分析:已有一份中文单面文件和一份英文单面文件,均被纵切为19条碎片,中 文文件的每张碎片中均有27行的汉字,英文文件的每张碎片中均有29行的字母。因为 图片由像素点组成,像素点可以转换成可运算的数据,我们的做题思路为:先将19张 碎纸片分别转化成0 ∼ 255的灰度值矩阵,再将其转化分别成数据的矩阵,利用首尾数 据拼接模型,将19个0-1矩阵的尾列数据逐个与其他矩阵的首列矩阵进行对比,取距离 最短的进行两两拼接。
������(11,792) ⎞
������������������
=
⎜ ⎜
...
...
...
...
...
⎟ ⎟
⎝
⎠
������(119)80,72 ������(129)80,72 · · · ������(11988)0,72 ������(11998)0,72
5.1.2 首尾数据拼接模型的建立
2
三、模型的假设
1. 每一张碎纸片的边缘均光滑。 2. 同一文件的碎纸片大小、形状相同。 3. 同一文件的行间距相同,段落间距相同。 4. 文件中仅有黑色文字,无污渍或其他内容。 5. 所有图片不需要进行去噪处理。
四、符号假设
符号
���������(���������������) ������(������������������) ������������������ ������������������ ������������������ ������������������ ������������������ ������������������ ������������������
意义 第k张碎片的������ × ������灰度值矩阵 第k张碎片的������ × ������ 0-1数据矩阵
所有碎纸片 碎纸片首列的������ × ������ 0-1的数据矩阵 碎纸片尾列的������ × ������ 0-1的数据矩阵
碎纸片的������ × ������距离矩阵 各行0-1数据之和的矩阵
|������180������,������ − ������180������−179,������ |
������=1 ������=1
进行行与行之间的三次拼接。其中需在一次聚类、二次拼接和三次拼接可能出错处进行 人工干预。根据人工干预次数得出中文文件拼接的准确率为90.99%,英文文件拼接的准确 率为67.46%。
2. 建立最短距离拼接模型:以������������������为决策变量,引入������������������判断是否通过该距离,建立旅行
商模型:
19 19
∑︁ ∑︁
������������������
������������������ ������������������
������=1 ������=1
19 19
������������,������ = ∑︁ ∑︁ |(���������(���,������������) − ���������(���,������������))|
������=1 ������=1
得到所有碎纸片之间的距离,将所有匹配度导入Lingo,利用旅行商模型取距离最短的碎 纸片进行两两拼接,并导出图像。得到中文文件的拼接顺序为:008、014、012、015、 003、010、002、016、001、004、005、009、013、018、011、007、017、000、006,英文文件的拼接顺序 为:003、006、002、007、015、018、011、000、005、001、009、013、010、008、012、014、017、016、004。
2. 将灰度值矩阵转化成0-1矩阵:通过
������(������������������)
=
⎧ ⎨
1,
������(������������������)
⎩ 0, ������������������������
≥ <
170 170
, ������ = 1, 2, · · · , 19
(1)
3. 得到碎纸片的首尾列矩阵:从������ = 1, 2, · · · , 19的������������������������中分别取出第一列,放入矩阵������������������,分
3
别取出第最后一列,放入矩阵������������������,其中������������������,������������������均为1980 × 19 的矩阵:
⎛ ������(11,1)
������(12,1) · · · ������������(11,19) ������(11,19) ⎞
������������������
=
⎜ ⎜
...
...
...
...
...
⎟ ⎟
⎝
⎠
������(119)80,1 ������(129)80,1 · · · ������(11988)0,1 ������119980,1
⎛ ������(11,7)2
������(12,7)2 · · · ������(11,782)
(2)
������=1 ������=1
得出矩阵������������,������ :
⎛
⎞
������1,1 · · · ������1,19
������������������
=
⎜ ⎜
...
...
⎝
...
⎟ ⎟
⎠
������19,1 · · · ������19,19
其中矩阵的对角线代表������ = ������时的对比,在实际拼接时不存在碎纸片的尾列与自身首 列拼接的情况,故人为将对角线取为极大值1000。
⎛ ������1(���,���1) · · · ������1(���,������)��� ⎞
���������(���������������)
=
⎜ ⎜
...
...
...
⎟ ⎟
⎝
⎠
, ������ = 1, 2, · · · , 19
���������(���������,)1 · · · ���������(���������,)������ 1980×72
������=1
计算第一列11张与剩余198 张的距离,取距离最短的碎纸片进行一次聚类,再找出11张碎
纸片同行碎纸片共同具有的的特征行,利用绝对差值比较模型和最短距离拼接模型对特
征行进行求解,进行同类碎纸片间的拼接,得到二次拼接的结果,最后建立三维矩阵最短
距离模型
11 1368
∑︁ ∑︁
������������������������ =
⎧ 19
⎪ ⎪ ⎪
∑︁ ������������������ = 1
������ = 1, 2, . . . , 19 ������ ̸= ������
⎪
⎪
⎪ ⎪
������=1
⎪
⎪
⎪ ⎪
19
⎪ ⎪ ⎪ ⎨
∑︁ ������������������ = 1
������ = 1, 2, . . . , 19 ������ ̸= ������
1. 建立首尾差值比较模型:将第������(������ = 1, 2, · · · , 19)张碎片尾列数据依次与第������(������ = 1, 2, · · · , 19)张 碎片首列数据进行比较,比较时采用模型:
19 19
∑︁ ∑︁
������������������ =
|(������������������ − ������������������ )|
关键词: 绝对差值比较;最短距离模型;聚类分析;特征行对比;三维矩阵。
1
一、问题的重述
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重 要的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎 片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们试图开发 碎纸片的自动拼接技术,以提高拼接复原效率。请讨论以下问题:
2. 问题二的分析:已有一份中文单面文件和一份英文单面文件,均为横切和纵切成11 × 19块的碎片,中文文件的每张碎片中均有2 ∼ 3行的汉字,英文文件的每张碎片中均 有2 ∼ 3行的字母,可见行数较少,准确率会降低。由于第一列的前多列具有全空白 的特征且后多列不空白的特征,我们的思路是:先从每个文件中找出首列所有碎纸片, 再以第一列为基准进行每行碎纸片的分组和拼接。对于中文文件,我们根据行与行之 间空白部分的位置进行一次聚类;对于英文文件,我们根据特征行的数据和位置进行 一次聚类,再利用首尾数据拼接模型进行二次拼接,最后在碎纸片和碎纸片的行与列 的三维矩阵中求最短距离得连接方式,得到行与行之间的连接。
3. 上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有双面打印文件的碎 纸片拼接复原问题需要解决。附件5给出的是一页英文印刷文字双面打印文件的碎片 数据。请尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼 接复原结果。