关于中英文的碎纸片拼接复原问题研究
碎片拼接复原技术研究
2 碎 纸 片 拼 接模 型 的 建 立
中文规则碎纸片的拼接模型 : 在对碎纸片进行了二值化处理之后 . 我们试 着建立 一个 碎纸片拼 接 的数学模型来解决这个问题 在此之前 . 我们先给出模型的基本假 设: 假设一 : 整张纸 张切割完整 , 碎 片内没有丢失 部分像素并且在 切 割之后所得碎纸片都全等 : 假设 二 : 字与字之问的行间距 都是相 等的 , 没有发生 突变 的行为 在建立模型之前 . 我们需要看一 下实际 的问题 : 对于给定 的来 自 同一页印刷文字文件的碎纸机破碎纸片( 仅纵切 ) . 建立碎 纸片拼接复 原模 型和算法 . 并 针对附件 1 给 出的中文文件 的碎片数据进行 拼接复 原。 如果复原过程需要人工 干预 , 请写 出干预方式及干预 的时间节点。 复原结果 以图片形式及表格形式表达 除去文字本身 . 我们 可以把 每张碎纸 片看 出只有黑 白两种颜色的 图像 通常遇到这种情景 的图像可以用二值法来表示图像 一幅二值 图像 的二维矩 阵仅有f O , 1 1 两个值构成 , … 0’ 代表黑色 , “ 1 ” 代表 白色。 将图像 中的像素 点分 别用{ 0 , l 1 表示 , 把 文字 图像数 字化 , 便于 拼接 修 复 二值图像通常用于文字, 线条图的扫描识别 O C R . 本文尝试运用二 值 图像修 复碎 纸片
成, 准确率较高 , 但效率很低 。针对规 则碎 纸片的拼接 , 本 文基 于中文 文章试对文字特征进行探 究 , 针对不同情况建 立了逐步递进的模型 , 用现
实 问题 进 行 验 证 结合 人 工 干预 , 效 果较 为 良好 。
【 关键词】 碎纸片拼 接 ; 文字特征 ; 旅行 商问题
1 研 究 背景 与意 义
根据 已经 建立 的 E 矩阵 , 我们通过计算得到一个 1 9 x 2 的s 矩阵. 这个矩 阵储存的是每一条碎片边缘取值为 O的像素点( 即为黑色 的像素 ) 的数量。例如, s [ 订 : 3 5 0 表示 0 0 1 号碎片的左侧边缘有 3 5 0 个 黑色像素点
碎纸片拼接
碎纸片拼接与复原摘要本文讲述的是碎纸片拼接复原的问题。
碎纸片拼接复原在情报和考古方面用的较多,有很大的使用价值。
在实际操作中,人工拼接的准确度极高,但随着碎片数量增大,拼接难度将大大提高,这时必须借助计算机来处理,最后辅以人工干预来完成。
针对本文提出的问题,我们的模型不区分文字语言,把图像的灰度值作为建立模型的关键切入点。
使用matlab里的imread函数读入BMP图像,并取得其灰度值矩阵,矩阵中每一元素为图像每一像素的灰度值,通过对其边缘的灰度值进行匹配,求出其拼接顺序。
本文中匹配这一步骤采取求图片两边的一列像素灰度值进行求差绝对值,并将求其均值最小作为匹配原理,匹配度必须小于0.1。
第一问中只涉及到单面碎纸片,而且仅把单张纸进行纵向切碎成规则长条状,所以只需对其左右端像素的灰度值进行采集,然后进行匹配,将匹配度最高的两边连起来。
不过有两条纸的左边和右边全为白色,则将其单独列出来,作为复原后纸张的左右端,最后进行人工校正。
第二问中的纸片数量增多,且涉及到横纵同时切碎的纸片,所以不能直接沿用第一问的方法。
但通过观察,横切出的每一横条上碎纸片文字具有明显的共同点,可以进行快速匹配。
首先确定出第一行,通过寻找灰度矩阵最上面全为255的行数最多的图像,作为拼出第一行的碎片。
再用与刚才相似的方法,不过须取列为255最多的图片作整个复原图第一列。
最后从第二行第二个开始,从左至右从上到下依次匹配上碎片,最后结果需进行人工校正。
第三问由于涉及到双面纸的问题,可以继续沿用第二问的方法,不过拼接标准需要改为两面灰度值匹配度之和,将纸片拼接好后,最后再人工检查其是否拼接完全正确。
此模型还可用于彩色图像的拼接,用RGB颜色系统,同样是导出每一像素的RGB 值,构成矩阵,用与文中相似的办法进行破碎彩色图像的拼接。
关键词:拼接复原图像处理灰度值矩阵匹配1 问题重述B题碎纸片的拼接复原破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
碎纸片的拼接复原
碎纸片的拼接复原作者:沈江琴徐莹来源:《速读·中旬》2014年第09期摘要:关于破碎文件的拼接复原是我们现实生活中的实际问题,主要就是根据碎纸片边缘的字迹、文字之间的行高、间距等特征,确定合理的拼接方案。
本文作者通过建立合理模型,采用灰度值矩阵,进行计算机计算,再通过人工干预,最终得到完整的拼接结果。
关键词:灰度值矩阵;匹配模型;Pearson相关系数;人工干预破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,拼接复原工作需由人工完成,效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
1 模型的假设与符号说明1.1模型的假设(1)假设所有碎纸片原有的文本中字与字、行距、段落间距是相同的;(2)假设所有的碎纸片都能拼接上,没有多余或者缺少;(3)假设所有碎纸片的文字字体大小相等;(4)假设每篇文本的左右页边距、上下页边距相同,且距离适中;(5)假设文本读取方向从左往右、从上往下。
1.2模型的符号说明[ai]:碎纸片左边缘字迹的灰度矩阵;[bj]:碎纸片右边缘字迹的灰度矩阵;[A]:所有碎纸片左边字迹的灰度矩阵;[B]:所有碎纸片右边缘字迹的灰度矩阵;[D]:所有碎纸片左右边缘字迹灰度值的差异度;[dij]:左边缘[i]与右边缘[j]的灰度值差异度;[xij]:0-1变量,当左边缘[i]与右边缘[j]配对时取1,否则取0;[mi]:序号为[mi]的碎纸片;[am,n]:矩阵[ai]中的元素;[bm,n]:矩阵[bj]中的元素2 问题的分析我们对于附件一中来自同一页印刷文字文件的碎纸机破碎的纸片(仅纵切),建立碎纸片拼接复原模型和算法。
通过观察可以发现,文字文档的文字行方向是平行并且单一的,如果某一个碎纸片内的文字行在边缘处断裂,那么与它相邻的碎纸片在边缘处也一定具有相同高度的文字行,我们凭借此特征可以从碎纸片边缘字迹相似的多个碎片中挑出相邻的碎片。
基于规则碎纸片文字特征的拼接复原算法
基于规则碎纸片文字特征的拼接复原算法承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):中国人民解放军第三军医大学参赛队员(打印并签名) :1. 王家*2. 黄嘉*3. 邵*指导教师或指导教师组负责人(打印并签名):周*(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):基于规则碎纸片文字特征的拼接复原算法摘要目前对于碎纸片的拼接问题,大多数方法是基于不规则碎纸片的几何边缘特征进行拼接,而本题是基于规则碎纸片的文字特征进行的。
我们首先提取各碎纸片的像素边缘特征,然后通过寻找最大匹配率和少量人工干预,得到碎片拼接方案。
碎纸片的拼接复原
碎纸片的拼接复原摘要本文研究了碎纸片的复原问题。
对已有的碎纸片,我们利用Matlab求碎纸片边各侧边线的灰度值,通过最小偏差平方和法进行碎纸片间的相互匹配,中间加入人工干预进行筛选,将附件中的碎纸片全部还原。
之后,我们将该方法进行推广,可用以处理更复杂形状碎图片的的还原问题。
对问题一:首先假定附件一所给仅纵切的碎纸片的行文方向与各碎纸片两侧边线垂直,在此基础上先人工干预,根据碎纸片的剪切规范,甄选出原始图片的第一张和最后一张碎纸片,编号分别为008和006。
其次通过Matlab求出图片边线处各小网格点的灰度值,采用最小偏差平方和法,对编号008碎片右边线处的灰度值和其它碎纸片的左边线处的灰度值进行对应网格点的数值匹配,找到最匹配的碎纸片。
附件二碎片的处理进行了类似处理,给出的复原图片见附表4。
对问题二:附件三文本既纵切又横切,同样我们假设所给附件三中碎纸片的行文方向与碎纸片的上下左右边线分别平行或垂直。
在问题一的算法基础上,通过Matlab求出各碎纸片的4条边线的边界灰度值,然后利用最小偏差平方和法,对上下左右四边进行灰度值匹配,当结果多个时,我们进行了人工干预。
附件四依照附件三的方法类似处理,最终的复原见附表7和附表9。
对问题三:附件五中的图片既纵切又横切而且是正反面。
我们参照问题一、二的处理方法,加入反面的灰度值测算,随机选择一张碎纸片与其他碎纸片进行遍历匹配,得出4张匹配的碎纸片后,以这4张碎纸片为下一起点,扩张匹配,最终给出的复原图见附表12。
为适应更一般的情形,我们在模型改进部分,给出了当碎纸片的文字行文方向与碎纸片两侧边线不垂直时的处理方法(只处理了边线为直线的情形)。
首先是通过测算出的碎纸片灰度值确定出碎纸片的边缘线,其次定出碎纸片边缘线附近网格点的灰度值,最后完成边线的的匹配。
关键词:人工干预灰度矩阵灰度值最小偏差平方和法一问题重述1.1问题背景纸片文字是人们获取和交换信息的主要媒介,尤其是在计算机技术飞速发展、数码产品日益普及的今天。
基于文字特征的双面打印碎纸片拼接复原
基于文字特征的双面打印碎纸片拼接复原陈稳稳;黄磊【期刊名称】《网友世界·云教育》【年(卷),期】2013(000)024【摘要】图像拼接(Image Mosaic)是一个日益流行的研究领域,他已经成为照相绘图学、计寄机视觉、图像处理和计寄机图形学研究中的热点。
图像拼接解决的问题一般是通过对齐一系列空间重叠的图像,构成一个无缝的、高清晰的图像,它具有比单个图像更高的分辨率和更大的视野。
在司法物证鉴定、历史书籍复原等很多领域要用到文字碎片的拼接复原,目前,对于碎纸片的拼接复原,大都采用人工拼接的方式进行。
这种方法寅然准确度较高,但是效率较低,尤其是面对大量碎片的拼接复原时,效率低下的问题显得尤为明显。
如果能引入计寄机辅助图像拼接技术,必能大大提高工作效率,减少工作时间。
文章针对给出题目提出的数据和附件中给出的数据,进行了严密地分析,建立了数学模型,给出的求解方法,得出了结果。
<br> 问题1:对于碎纸机既纵切又横切的情形,给出的中、英文印刷文字双面打印文件的碎纸机碎片数据,设计相应的碎纸片拼接复原模型或寄法,如果复原过程需要人工干预,写出干预方式及干预的时间节点。
<br> 问题2:编写程序实现计寄机还原,要求复原结果以图片形式及表格形式表达,分析并总结双面打印碎纸机碎片还原和单面的区别,写出实验报告。
【总页数】1页(P13-13)【作者】陈稳稳;黄磊【作者单位】邵阳学院,湖南邵阳 422000;邵阳学院,湖南邵阳 422000【正文语种】中文【相关文献】1.基于数字图像的碎纸复原模型与算法--2013年全国大学生数学建模B题碎纸片的拼接复原问题 [J], 刘铁2.基于数字图像的碎纸复原模型与算法——2013年全国大学生数学建模B题碎纸片的拼接复原问题 [J], 刘铁;3.基于文字信息的碎纸片拼接复原算法 [J], 鲁嘉琪4.基于文字特征和边缘特征的文本碎纸片拼接 [J], 刘赐德;黄志祥;管一弘;赵建军5.基于特征点匹配的双面碎纸片自动拼接复原 [J], 杨伟芳;王锦升;邹德玉因版权原因,仅展示原文概要,查看原文内容请购买。
碎纸片的拼接还原研究
碎纸片的拼接复原摘要碎纸片的拼接复原是一门借助计算机,把大量碎纸片重新拼接成初始纸张的技术。
针对问题一,本文首先利用碎纸片图像灰度矩阵的边缘矩阵,建立了两个碎纸片之间的匹配度函数,求得了每一张图片之间左右边缘匹配度矩阵。
然后根据左边边缘位置的碎片的左边空白部分最多的特点,确定了左边位置的碎纸片。
接着根据拼接碎纸片的拼接复原时,所有碎纸片匹配度之和取极大值的原则,采用贪心算法,得到了所有碎纸片的初始位置,拼接复原了附件1和附件2中纸片。
针对问题二,由于附件3碎片数量太多,并且碎片的拼接复原,是一个以碎纸片总匹配度为目标函数的组合优化问题。
所以本文采用遗传算法将碎纸片的编号作为基因,并将基因均匀分成19段,按顺序每一段对应一个初始纸片列位置,进行了求解。
然后,根据边缘碎纸片某些边的空白部分多的特征,对初始基因进行了优化。
接着,根据碎纸片的黑色像素密度不同的特点,将碎纸片分成三类,根据同类纸片优先匹配的原则,对遗传算法的运行过程进行了优化,拼接复原了附件3和附件4中纸片。
针对问题三,随着碎纸片量的增多,计算量急剧增加。
在上述拼接复原碎纸片的基础上,又引进了同行位置碎纸片的上部(或下部)空白位置宽度相近的聚类思想。
先对每个类内部拼接,在合并所有类并做一次整体拼接。
由于时间有限,我们未能完成最后一次的整体的拼接,但我们会在比赛后继续探究。
关键词:边缘矩阵匹配度函数遗传算法聚类一、问题重述碎片拼接实际用途已经越来越广泛,传统上拼接复原工作由人工完成,碎片拼接的准确率较高,但效率很低。
并且当碎片数量很大时,人工短时间内拼接出来几乎是不可能的。
所以开发碎纸的拼接技术,以提高拼接复原效率已成为越来越多人的期望。
现在,在碎纸片是规则的情况下,题目要求我们在以下条件建立碎纸片拼接复原模型和算法。
1.来自同一页印刷文字文件(中文、英文各一页)的碎纸机破碎纸片(仅纵切)拼接复原,并将附件1和附件2复原。
2.对碎纸机既纵切又横切文件的情形,将碎纸片拼接完整。
碎纸片拼接问题(2013B)
方法2:聚类算法:主要方法,效果好。
• 计算 Ai 的行和,得到一个特征向量 ri 。定义适当的 向量相似度指标,对 ri 进行相似度计算,然后对所有 碎片进行聚类,得到分行结果。
几种相似度度量指标:
1 欧式距离倒数: d ij || ri r j ||
夹角余弦: cos ij || r || || r || i j 相关系数: ij
规划方法:将每一行的碎片依次编号为 1, 2, , N . 定义两碎片之间的有向距离为 cij 。
令 xi ,k 1, 第 i 块碎片在第 k 个位置上 否则 0,
ห้องสมุดไป่ตู้
min z
N 1 N
c
k 1 i 1 j 1 , j i
N
ij
x i ,k x j ,k 1
c
MN
k ,l
x i , j , k x i , j 1 ,l
M 1 N MN
i 1 j 1 k 1 l 1 , l k
d
MN
k ,l
x i , j ,k x i 1 , j ,l
约束条件: (1)每个碎片只能放在一个位置上。
x
i 1 j 1
(1)整体的文字拼接正确度;
不易衡量。
(2)纸片两两之间的拼接正确度。
•如何计算纸片两两之间的拼接正确度? 分析:假设纸片 i 和 j 拼接在一起,i 左 j 右,则 应该可以计算出一个相关的正确度指标。 怎么计算?
• 利用什么信息计算? 利用Matlab 软件读取碎片,生成相对应的灰度值 数字矩阵 Ai 。
如何确定碎纸片的位置?
方法一:一次性确定所有碎纸片的位置。 方法二:分组确定碎纸片的位置。 方法三:逐一确定碎纸片的位置。
碎纸片拼接数学模型
碎纸片的拼接复原问题模型摘要本文研究的是碎纸片的拼接复原问题。
针对碎纸不同的裁剪特点,我们运用相关性系数法、聚类分析法等建立不同的模型来解决不同裁剪特点和不同纸张的复原问题。
针对问题一,我们利用图像数字化技术,借助MATLAB软件将题目中附件1,2所给的图片转化为灰度值矩阵,并作二值化处理,然后取出每个矩阵第一列和最后一列,采用相关系数分析的方法,计算每第一列和每最后一列相关系数,根据相关系数的大小确定相邻的图片,逐步确定各张图片的顺序,最后得到复原的图片。
中文文档拼接的顺序为:8,14,12,15,3,10,2,16,1,4,5,9,13,18,11,7,17,0,6,中文文档复原的结果见附录1;英文文档拼接的顺序为:3,6,2,7,15,18,11,0,5,1,9,13,10,8,12,14,17,16,4,英文文档复原结果见附录2。
针对问题二,同样,在将图片二值化处理后,我们运用聚类分析法将纵横裁剪后的图片进行行分类,经过人工干预后,获得需要的矩阵尺寸,然后根据图片的特点运用图片的上下边界和左右边界进行二次匹配,直到找到大致正确的图片排序;同时在必要时,进行二次人工干预,直到获得正确的图片排序。
关键词:碎纸片复原图像数字化相关性系数聚类法1 问题重述1.1 问题背景碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
然而,传统的拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
本题即是通过一些模型算法开展对碎纸自动拼接技术的研究,具有重要的现实意义。
1.2 要解决的问题问题一:对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,要求写出干预方式及干预的时间节点。
碎纸片的拼接复原
碎纸片的拼接复原班级:一班成员:陈腊梅:1109401010 蔡越萍:1109401004 游露:1109401041一、背景破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
二、问题分析文档碎片的边缘形状对拼接复原的结果有着重要的影响。
常见的计算机拼接方式一般先考虑边缘的尖角、尖点及面积等特征,在利用碎片边缘的几何特性搜索与之匹配的相邻的碎纸片。
而问题中所给出的碎纸片均由碎纸机有规律的纵切、横切,使得来自同一页的破碎纸片均有相同的大小和规则的边缘形状,所以基于边界几何特征的方法并不适用于这种边缘形状相同的碎纸片。
针对附件当中既有汉字,也有英文的情况,在拼接时就要考虑碎纸片内文字内容的匹配情况,然而计算机在短时间内具有人工拼接时识别及理解文字图像含义的能力难度很大。
利用计算机以及MATLAB中的图像处理工具箱却可以较容易的分析获得文字的几何特征,比如文字的高度、文字间距等信息,在匹配时也可以充分利用碎纸片边缘像素点的连续性,从而不需要让计算机去匹配文字的内容,而仅仅考虑边缘文字的形状特征。
这样可以有效提高拼接的效率,但是由于碎纸片边缘形状相同,某些纸片边缘的灰度值完全相同,从而导致匹配的纸片不唯一,可以有多种选择,让计算机对碎纸片进行全自动化拼接还要保证拼接的准确性,实现起来可能性不大,因此需要在拼接过程中加入人工干预。
一般先根据建立的模型及算法给出待选的匹配碎片,在利用人工进行进一步的分析,对不唯一的待选碎片进行舍弃,正确选择待匹配的碎片。
对于问题1,可以利用相邻纸片边缘像素值相似的特性,提取每一张图片文件的左,右两侧边缘像素信息,通过逻辑异或逻辑运算对图片边缘进行点对点的匹配,建立了基于灰度信息的特征匹配模型,对附件1和附件2的碎片数据进行拼接复原,通过计算机模拟,在没有人工干预的情况下,全自动的实现了快速复原。
单面英文碎纸片的拼接复原及算法实现
无明显语法、 词语和单词错误 , 证明复原图片正确 。
2 单 面 英 文 碎 纸 片 拼 接 复原 初 步模 型
2 . 1 提取 信息 : 差 异度指 数
复 以及 军事 情报 获取 等领域 都 有着重 要 的应用 。随 着 计算 机技 术 的发 展 , 人 们试 图 开发 碎 纸 片 的 自动 拼 接技术 … , 来 提 高拼 接复原 效 率 。
DOI : 1 0 . 1 3 8 7 6 / J . c n k i . y d n s e . 2 0 1 5. 01 . 01 4
单面 英 文碎 纸 片 的拼 接 复 原 及 算 法 实 现
金 明娅 , 孙丹蕾 , 赵 艳 , 窦霁虹
( 西北大学 数学学院 , 陕西 西安 7 1 0 1 2 7 )
编程 画 出复原 图片 。最后 人工 检验 英文 复原 图 片 中
收 稿 日期 : 2 0 1 4—1 1 —1 4
度值 ; 表示第 块碎片下侧第 k 个特征点的灰度
作者简介 : 金 明娅 ( 1 9 9 3 一) , 女, 陕西安康人 , 西北大学数学学 院 2 0 1 1 级本科 生。
第3 4卷 第 1 期 2 0 1 5年 3月
延安大学学报 ( 自然科学 版) J o u na r l o f Y a n a n U n i v e r s i t y ( N a t u r a l S c i e n c e E d i t i o n )
Vo 1 . 3 4 No . 1 Ma r . 2 0 1 5
第1 期
¨
~
单面英文碎纸片的拼接复原及算法实现
碎纸片的拼接复原
文
档
文字高度
特
征
分
文字间隔
析
仅横切碎片(中、英文) 英文字母的规格化处理
横、纵切中文
横、纵切英文
第一问
➢ 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片 (此时仅纵切),建立碎纸片拼接复原模型和算法,并针 对附件1、附件2给出的中、英文各一页文件的碎片数据进 行拼接复原。如果复原过程需要人工干预,请写出干预方 式及干预的时间节点。
1.文字行高的确定:
h1 h3
h2
我们定义:上方的汉字末端与文档上边缘距离为h1,相同的,下方汉 字末端与文档下边缘距离为h2。
2.分析:
A=
B=
定义:C=A(h1)-B(h1)。
分析:当C值越小时,说明A矩阵的h1与B矩阵的h1越接近,则说 明碎片A与碎片B在同文档中同一行的可能性越大。我们以此作为 依据,用来寻找在同行的碎片。 但是,在实际的操作中,我们的算法出现了较大的误差。通过对数 据和附件图片的分析,我们发现,由于某些特殊图片的存在,导致 我们的算法出现误差。在这里,我们又使用h2来进行条件约束,优 化我们的算法。
• 3.附件5给出的是一页英文印刷文字双面打印文件的碎片 数据。请尝试设计相应的碎纸片拼接复原模型与算法,并 就附件5的碎片数据给出拼接复原结果。如果复原过程需 要人工干预,请写出干预方式及干预的时间节点。
思路框图
边界碎片选取 左右边缘空白原则 左右边缘空白最宽原则
拼接合理度分析
最大契合 度函数
最小契合 度函数
总结:
➢图片信息处理 ➢确定最边缘碎片 • 定义边缘矩阵匹配度函数 ➢完成整篇文章的复原
图片信息处理:
• 我们将附件中的图片导入至MATLAB中,计算机会将文件 中的图像信息转化数字信息,以任意汉字做示意,其过程 如下:
碎纸片拼接复原问题研究
基于旅行商规划模型的碎纸片拼接复原问题研究摘要本文分别针对RSSTD(Reconstruction of Strip Shredded Text Document)、RCCSTD(Reconstruction of cross-cut Shredded Text Document)和Two-Sides RCCSTD三种类型的碎纸片拼接复原问题进行了建模与求解算法设计。
首先我们对于RSSTD问题,建立了基于二值匹配度的TSP模型,并将其转化为线性规划模型,利用贪心策略复原了该问题的中文和英文碎片;然后对于RCCSTD问题,由于中英文字的差别,我们分别建立了基于改进误差评估的汉字拼接模型和基于文字基线的误差评估的英文字拼接模型,并利用误差评估匹配算法,复原了该问题的中文和英文碎片;随后我们针对正反两面的RCCSTD 问题,利用基线的概念将正反两面分行,转化为RCCSTD问题,并复原了该问题的英文碎片。
最后,我们对模型的算法和结果进行了检验和分析。
◎问题一:我们针对仅纵切的情况,首先将图像进行数字化处理,转换为了二值图像,然后得到各图像的边缘,并计算所有碎片与其他碎片边缘的匹配程度。
然后,根据两两碎片之间的匹配程度建立了TSP模型,并将其划归为线性规划模型。
最终,我们根据左边距的信息确定了左边第一碎片,随后设计了基于匹配度的贪心算法从左向右得到了所有碎片的拼接复原结果。
结果表明我们的方法对于中英文两种情况适用性均较好,且该过程不需要人工干预。
◎问题二:我们针对既纵切又横切的情况,由于中英文的差异性,我们在进行分行聚类时应采用不同的标准。
首先根据左右边距的信息确定了左边和右边的碎片,随后分别利用基于改进误差评估的汉字拼接模型和基于文字基线的误差评估模型,将剩余的碎片进行分行聚类,然后再利用基于误差评估的行内匹配算法对行内进行了拼接,最终利用行间匹配算法对行间的碎片进行了再拼接,最终得到了拼接复原结果。
对于拼接过程中可能出现误判的情况,我们利用GUI 编写了人机交互的人工干预界面,用人的直觉判断提高匹配的成功率和完整性。
2013年高教社杯全国一等奖论文碎纸片的拼接复原
右边界矩阵
B _ right = [b _ right1,b _ right2,...,b _ right19 ];
b _ righti = (bi1, bi2 ,..., bi1920 )'
其中矩阵 B _ right 的每一列向量对应着每一碎纸片的左边界特征向量。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展 示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B
我们的参赛报名号为(如果赛区设置报名号的话):
20007002
所属学校(请填写完整的全名): 长沙理工大学
5
注:英文的主体字符表示如下红色阴影部分的行高:
5.2 问题一 针对问题一,对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),一共 产生了 19 条破碎纸片,每条碎纸片的像素尺寸为 1920× 72。通常对于切点两端的像素 点通常具有一定的相关性(见图 3)。
图3
如图一所示,假设位于图像中央的的黑色竖线为图片切线,可以发现对于非文字或 字母边界处的水平、竖直、空白或者斜线中心附近切点的左右两边图片的像素灰度相同, 只有在文字或字母笔画的边缘(灰度渐变处)或者呈一定角度的笔画切点左右像素的灰 度会有一定的差别,因此建立相关匹配拼接模型,对于问题一是一种行之有效的解决策 略。具体步骤如下(见图 4):
根据排版规则,每一张图片上的同种字符点阵都具有固定的行高和字符高度,且每 一行字符点阵的高度和行高均相等,且平行。因此首先确定纸张的行高和字符高度对后 文的字符识别及碎纸片分类具有重要意义。
碎纸片还原问题求解
185 2 0 5 204 0 0 4
186 0 8 5 205 1 0 1
187 1 5 2 206 1 1 3
188 1 6 5 207 1 9 4
189 0 2 7 208 1 1 9
190 0 6 0 209 1 2 3
编号
…
顺序
…
编号
…
问题三的求解: 用求绝对差的算法匹配点对,后期运用欧式距离进行 检验匹配度. 步骤一 运用Matlab程序对418个碎片图像进行像素矩阵转换 计算,得到418个180 *72的矩阵,提取所得每个像素矩阵 的第一列像素矩阵和最后一列像素矩阵,即均为 180*1的 像素矩阵. 步骤二 对得到418个第一列像素矩阵和最后一列像素矩阵分 别进行列求和,然后分别存放在矩阵D和Dt中,接下来用 Dt的每一项依次减去D的每一项之后并求绝对值,得到一 个矩阵M.
0 1 0
0 0 2
0 1 6
0 0 1
0 0 4
0 0 5
0 0 9
0 1 3
0 1 8
0 1 6
0 0 1
0 0 4
0 0 5
0 0 9
同理得到附件2的拼接复原文件,拼接顺序如下表所示:
表4 附件2文件的复原拼接结果
顺序
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
编号
0 0 3
符号说明
Dn ————相对应的像素绝对差值
Sn (i, j ) ——像素矩阵的像素值
aij
————第i个碎片最后一列与第j个碎片第一列的图像矩阵值
碎纸片复原
关于碎纸片的自动拼接复原的数学模型问题摘要本文根据碎纸片内的文字特征、图片像素特征特点提出了基于文字特征的文档碎纸片自动拼接复原模型。
根据碎纸拼接模型提出了基于MATLAB[1]语言为核心的自动拼接算法,并用该算法的程序对碎纸机碎纸的实际例子进行了拼接实验。
对这类边缘相似的碎纸片的拼接,理想的计算机拼接过程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配。
然而由于理论和技术的限制,让计算机具备类似人类那种识别碎片边缘的字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。
但是利用现有的计算机技术,完全可以获取碎片文字所在行的几何特征信息,比如文字行的行高、文字行的间距等信息。
拼接碎片时如利用这些信息进行拼接,其拼接效率无疑比单纯手工拼接要高。
针对问题一,由于碎纸片数量比较少且只有纵向切割,采用比较简单的二值模型进行碎纸配对。
由于图像都具有三颜色RGB,扫描之后的碎纸片需要对其进行灰度处理得到一张灰度值图像,若定义原点之后,每一个像素点都具有X、Y坐标值,碎纸片的灰度值可构成一个二维矩阵。
二维矩阵的每一个元素都代表着碎纸片的特征值,根据图片每一个灰度值的大小即可判断出碎纸图片边界特性。
对于一个选定的纸片,将每一个待拼接碎纸片的二维矩阵的最左一列与其二维矩阵的最右一列进行差值比较,再求把所有的差值求和,生成一个相应的矩阵。
将该矩阵的最小值来作为相似度矩阵的判断条件,以此便可求出该图片是否能够成功拼接。
最后利用加权平均的融合方法进行图像无缝平滑,得到无缝拼接[2]图像。
针对问题二:根据附件3和附件4给出的碎片资料可以看出,碎片除了有纵向切割之外还有横向切割,这给单一的拼接算法带来了一定的困难。
本文根据图片的质量与清晰度可以将问题简化,将附录所给出的碎纸片用简单的算法进行分组归类,使得拼接问题变得单一化,先使用第一问的模型进行纵向拼接成11行之后,再以第一问的模型进行横向拼接。
碎纸片的拼接复原的数学模型
碎纸片的拼接复原摘要本文主要采用了模糊模型识别、灰度相关、傅里叶变换等方法对碎纸自动拼接进行了深入探讨。
文中主要结合司法物证复原、历史文献修复、军事情报获取这一背景,针对横纵切碎自动拼接展开探究。
提出一种基于最大梯度和灰度相关的全景图拼接法。
同时采用边界提取法使图像预处理达到最好的效果,期间采用傅里叶变换对图像进行处理,最后再利用匹配准则等方法处理图像的拼接。
最终应用模糊模型识别法建立模型,通过隶属函数的建立实现最终的碎纸拼接。
期间有些碎纸片计算机无法识别,需要进行人工干预,从而才能得到一副完整的复原图。
图像拼接的主要工作流程可以概括为以下三个步骤:(1) 对图像碎片进行预处理,即对物体碎片数字化,得到碎片的数字图像。
(2) 图像碎片匹配,通过匹配算法找到相互匹配的图像碎片。
(3) 图像碎片的拼接合并,将相互匹配的图像碎片拼接在一起得到最终结果。
针对问题一:将图像导入MATLAB 进行相应的转化,由于数据量较大,所以对数据进行优化提取。
计算提取数据的均值与方差,找出其模糊集,建立符合题意的隶属函数。
由于模糊集的边界是模糊的,如果要把模糊概念转化为数学语言,需要选取不同的置信水平(01)λλ≤≤ 来确定其隶属关系,从而实现纵切图像的全景拼接。
(如表一、表二)针对于问题二:由于是横纵切碎纸片,所得图像较多,采用提取像素法对图片进行灰度分析,通过中介量阈值的确定来找出像素点的差别,梯度值在这一过程中也是作为衡量两张碎纸片是否匹配的标准。
从而对数据进行处理,最后导入MATLAB 软件实现拼接。
(如表三、表四)针对问题三:它是在问题一和问题二上加深了难度,采用提取像素点,傅里叶变换,灰度相关、模糊相似优先比等方法对问题进行分析,通过(0,1)矩阵的简化运算以及傅里叶变换得到最后的结果,但对于傅里叶变换需说明一点,变换之后的图像在原点平移之前四角是低频,最亮,平移之后中间是低频最亮,也就是说幅角比较大。
此过程中同时也需要人工干预,最终实现拼接。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三步: 根据左侧和右侧每一个碎纸片文字比较
明显的特征( 文字是半个, 还是完整) 对所需的碎片进 010 , 行筛选, 需要人工干预的原因是: 因为附件一在 014 , 观察表 3 中左右两列的图片特征: 006 三处出现污迹, 所以对复原的结果会有一定的干 1. 对左右两列的对应图片的观察可以将图片大 扰。 同理, 用上述的模型和算法对附件 2 进行整理, 得 到的匹配结果见表 2 : 表2
行数 左 1 49 141 2 61 36 3 168 18
附件 3 的最左侧与最右侧
4 38 74 5 71 60 6 14 176 7 94 43 8 125 145 9 29 59 10 7 11 89
图1
附件 1 拼接复原图局部
右
196 123
附件 1 总共进行了 18 次匹配, 人工干涉了 2 次, 机器实现了 16 次, 准确率 P = 0. 888889
破碎文件的拼接在司法物证复原 、 历史文献修复 以及军事情报获取等领域都有着重要的应用 。 传统 上, 拼接复原工作需由人工完成, 准确率较高, 但效率 人们试图开发碎纸片 很低 。随着计算机技术的发展, 以提高拼接复原效率 。 目前有许多 的自动拼接技术, 学者研究图片碎片的拼接技术 与算法 。
[1 - 5 ]
1 2 3 4 5 6
附件 1 的最大匹配
7 8 9 10 11 12 13 14 15 16 17 18 7 15 18 12 3 1 0 11
4 16 10 5
9 15 17 5 13 2
JY - 2011035 ) 基金项目: 山西省教学改革项目( J2012098 ) ; 运城学院科研基金项目( JY - 2011034 , ), 作者简介: 李晓霞( 1984女, 山西临猗人, 运城学院应用数学系教师, 硕士, 研究方向为泛函分析。
12
根据表格我们可以得到排列的顺序: 008 , 005 , 009 , 013 , 018 , 011 , 007 , 017 , 000 , 006 , 015 , 003 , 010 , 002 , 004 , 005 , ( 出现循环, 即要进行人工 干预 2 次) 第四步: 进行人工干预 。即: 应该在循环处予以人 014 后面进行干涉, 在 008 后面, 经过整理得 工干预, 到序列: 008 , 014 , 012 , 015 , 003 , 010 , 002 , 016 , 001 , 004 , 005 , 009 , 013 , 018 , 011 , 007 , 017 , 000 , 006 MATLAB 编程实现原 第五步: 利用第四步的结果, 图片的拼接复原 。图 1 纵切汉字碎片局部复原图 。
关于中英文的碎纸片拼接复原问题研究
李晓霞, 高志鹏, 张蕊倚, 王晓春
( 运城学院 应用数学系, 山西 运城 044000 ) 摘 要: 以 2013 全国大学生数学建模 B 题为例, 对碎纸片的拼接复原问题进行处理并优化, 根据各个附件
的碎片, 用 MATLAB 导出碎片的灰度矩阵, 然后根据边缘分析法和相关性分析, 建立合理的数学模型, 使碎片能 够在较短时间内完成复原, 同时对于计算机不能复原的碎片, 要进行适当的人工干预, 以提高拼接复原效率。 关键词: 边界信息; 边缘分析; 相关性分析; 匹配度 中图分类号: TP391. 7 文献标志码: A 8008 ( 2013 ) 05001204 文章编号: 1008-
其次从数据中提取每个图片的边界信息组成 19 * 19 的矩阵, 利用相关性系数对每个图片的衔接进行匹配, 匹配值越大, 则说明匹配度越高 。 1. 2 模型建立与结果 第一步: 用 MATLAB 导入附件 1 的数据, 第二步: 找出左边空白列( 全是 255 的列) 最多的 碎纸片即为纸张的最左侧( 图片 8 ) , 第三步: 利用相关性系数对每个图片的衔接进行 匹配, 匹配值越大, 则说明匹配度越高 。 若出现循环, y) 来建立模型: 就进行人工干预, 用相关系数 f ( x, f( x, y) =
图5
附件四拼接复原图局部
176 12 60 74 36 29 5 5 4 96
附件 4 总 共 进 行 了 209 次 匹 配, 人 工 干 涉 了 25 次, 机器实现了 184 次, 准确率 P = 88% . 附件 4 比附件 3 的准确率低, 原因是英文的字符 有大小写区分, 图片特征不是很明显, 找到的相类似的 图片个数比较多 。 3. 基于纵横切的正反两面英文碎纸拼接复原算法 3. 1 问题分析 针对问题三, 所给出的数据有正反面, 数据量更 418 张图片, 大, 但是只要纸张的一面复原了, 另一边 自然就复原了 。方法与问题二类似, 不同之处: 一在于 它是一张纸的正面和 最左边和最右边的纸片为 22 张, 所以先将与左右两侧图片相类似的图片找出, 利 反面, 然后再行与行进行拼 用相关性系数将 11 行拼接好, 接; 也就是将附件 3 的求解过程的第二步和第三步作 调整 。需要注意的是在用相关系数模型对于同一类型 的图片, 只需拼出一行, 背面一行就可获得 。计算量就 001a 和 001b 在编 会减少 。二在于图片记号的数字化, 图片若出现 程序的时候必须将字母与数字进行对应, 循环, 就进行人工干预 。 3. 2 模型建立与求解 第一步: 用 MATLAB 导入数据, 然后找出左右都 为白边的一些碎纸片, 分别找出左右各 22 个数字, 分 别是: 11 , 27 , 47 , 71 , 108 , 157 , 167 , 177 , 178 , 181 , 183 , 左: 7 , 198 , 200 , 211 , 228 , 272 , 286 , 292 , 331 , 345 , 373 , 399 10 , 19 , 26 , 46 , 70 , 109 , 156 , 166 , 176 , 179 , 180 , 右: 6 , 199 , 210 , 229 , 273 , 287 , 293 , 306 , 330 , 372 , 398 数字 对应关系为当数 代表的这个图片在附件中的位置, 字是 2 k + 1 时, 对应 ka ; 当数字是 2 k 时, 对应( k - 1 ) b, k = 0, 1 …208 . 以下的步骤与问题二类似可得得到附件 5 的拼接 复原局部图 6.
19 19
, 给出了许多思想
本文以 2013 全国大学生数学建模竞赛 B 题为例, 研究无噪声形状为矩形的碎纸片的拼接复原 。 用到的 y) 表示 x 与 y 的相关系数; x, y 分别 数学符号说明: f ( x, k i 表示与第 i 行最左侧或 表示图片的左 、 右边界信息 。 最右侧边界信息相类似的图片个数 。 1. 基于纵切的中英文碎纸拼接复原算法 1. 1 问题分析 附件 1 和 2 给出了 19 条汉字和英文碎片, 破碎纸 片都是来自同一张打印文件, 也就是说每个文件的字 体大小相同, 字体间隔, 还有行距都是一样的, 观察左 右边缘处, 发现有很多文字被切开, 因此碎片的拼接转 化成对边缘处被截断的字符的拼接 。拼接的时候只要 边界信息的匹配度最高, 就可近似认为是拼接成一个 完整的字符 。 首先用 MATLAB 导入数据, 分析数据, 每一列的 255 , 数据有 0 , 以及 0 到 255 之间的某些数, 其中 0 代 255 代表白色, 0, 255]之间的数按颜色 表黑色, 处于[ 由黑到白依次变化, 即代表灰色。 首先找出左边空白 列( 全是 255 的列) 最多的碎纸片即为纸张的最左侧,
13
11. 得到如下的表 4 : 表5
匹配个数 图片 参数 ( ki ) 123 4 196 6 43 5 17 18 18 25 20 18 18 18 20 18 18
同理用上述的模型和算法对附件 4 进行拼接, 得 到附件 4 的拼接复原局部图 5 。
附件 3 相类似的图片归类
匹配的图片标号 4, 40 , 101 , 102 , 108 , 113 , 114 , 117 , 119 , 140 , 146 , 151 , 154 , 155 , 185 , 194 , 207 32 , 53 , 56 , 68 , 70 , 93 , 96 , 116 , 126 , 131 , 138 , 153 , 7, 158 , 166 , 174 , 175 , 208 0, 34 , 42 , 43 , 47 , 77 , 84 , 90 , 94 , 97 , 112 , 121 , 124 , 127 , 136 , 144 , 149 , 164 , 183 2, 3, 12 , 22 , 29 , 31 , 39 , 49 , 51 , 57 , 82 , 91 , 115 , 118 , 128 , 129 , 134 , 135 , 143 , 159 , 160 , 190 , 199 , 203 16 , 17 , 21 , 66 , 106 , 109 , 110 , 125 , 139 , 145 , 150 , 13 , 157 , 173 , 181 , 182 , 184 , 187 , 197 , 204 , 8, 9, 24 , 35 , 25 , 38 , 46 , 81 , 88 , 103 , 105 , 122 , , 130 , 148 , 161 , 167 , 189 , 193 19 , 6, 20 , 52 , 61 , 63 , 67 , 69 , 72 , 78 , 79 , 96 , 99 , 116 , 131 , 132 , 163 , 177 64 , 111 , 201 , 5, 92 , 180 , 48 , 37 , 75 , 55 , 44 , 206 , 10 , 104 , 98 , 172 , 171 , 59 1, 18 , 23 , 26 , 30 , 41 , 50 , 62 , 73 , 76 , 86 , 87 , 100 , 107 , 120 , 142 , 147 , 179 , 191 , 195 2, 11 , 22 , 28 , 54 , 57 , 65 , 91 , 95 , 118 , 129 , 141 , 143 , 178 , 186 , 188 , 190 , 192 13 , 40 , 66 , 101 , 102 , 108 , 109 , 113 , 119 , 123 , 140 , 4, 146 , 151 , 154 , 155 , 194 , 207