一种新的聚类方法应用于中文碎纸片拼接问题

合集下载

根据问题的分析,为了设计碎纸片拼接的算法,可将碎纸片作为顶点

根据问题的分析,为了设计碎纸片拼接的算法,可将碎纸片作为顶点

根据问题的分析,为了设计碎纸片拼接的算法,可将碎纸片作为顶点基于目前传统的手工拼接复原碎纸片的现状和碎纸片拼接复原的实际需求,本文通过对5个附件中的碎纸片文件进行半自动复原,以研究碎纸片复原的模型和算法,希望通过此种模型和算法减少碎纸片复原的效率、准确度以及人工成本。

本文围绕几种不同类型的碎纸片拼接复原,建立碎纸片距离模型、旅行商模型和聚类分析模型,结合利用改良圈算法、聚类算法和少量的人工干预对几种不同类型的碎纸片拼接复原问题进行分析求解。

针对问题一,首先利用matlab对文件中的图片进行数值化处理,通过对每张碎纸片数值化矩阵左右两侧的分析,找到原图最左侧和最右侧的碎片序号a,b;建立碎纸片距离模型,以表示第两张碎纸片之间的距离,通过任意两张碎纸片之间的距离差异建立以第张碎纸片为起点,第张碎纸片为终点的旅行商模型,利用改良圈算法对模型求解,得到碎纸片拼接复原图及碎纸片序列针对问题二,首先利用matlab 对文件中的图片进行数值化处理,计算每张碎纸片的180行像素点的纵向向量,通过180个纵向向量将209张碎纸片聚类为12类,再通过人工干预将碎纸片均分为11类;通过对每张碎纸片数值化矩阵左右两侧的分析,找到每一类的起始碎纸片和终止碎纸片,建立同问题一的碎纸片距离模型,利用改良圈算法将11类碎纸片拼接复原成11行,使得问题转化成11行碎纸片的拼接复原问题;利用同问题一的方法拼接复原11行碎纸片得到碎纸片拼接复原原图及碎纸片序列针对问题三,首先利用matlab对文件中的图片进行数值化处理,计算每面碎纸片的特征因子,通过每面碎纸片的特征因子将每张碎纸片与剩余208张双面碎纸片即416张图片进行配对,并加入人工干预将每张碎纸片的两面数值化为0和1(即正反面两类);计算出每张碎纸片(包含两个面)360行像素点的纵向向量,通过360个纵向向量将209张碎纸片分为11类,利用问题二的求解方式对问题进行求解,最终得到碎纸片拼接复原的复原图及碎纸片序列。

碎纸片拼接复原的数学方法

碎纸片拼接复原的数学方法

碎纸片拼接复原的数学方法拼图游戏,一种看似简单却富含深度的游戏,给人们带来了无穷的乐趣。

然而,大家是否想过,这样的游戏其实与数学有着密切的?让我们一起探索碎纸片拼接复原背后的数学方法。

碎纸片拼接复原,其实就是一个计算几何问题。

在数学领域,欧几里得几何和非欧几里得几何是两个基本而又重要的分支。

欧几里得几何主要研究的是在平面上两点之间的最短距离,这是我们日常生活中常见的几何学。

而非欧几里得几何则研究的是曲面上的几何学,这种几何学并不符合我们日常生活中的直觉。

碎纸片拼接复原的问题就是一种非欧几里得几何问题。

在计算机科学中,图论是研究图形和网络的基本理论。

其中,图形遍历算法可以用来解决碎纸片拼接复原问题。

这种算法的基本思想是:从一点出发,尽可能多地遍历整个图形,并在遍历的过程中对图形进行重建。

对于碎纸片拼接复原问题,我们可以将每一张碎纸片看作是图中的一个节点,当两张碎纸片拼接在一起时,它们就形成了一个边。

通过这种方式,我们可以将所有的碎纸片连接起来,形成一个完整的图形。

在计算机科学中,碎纸片拼接复原问题被广泛应用于图像处理、数据恢复等领域。

例如,在数字图像处理中,如果一张图片被切割成若干块,我们可以通过类似的方法来恢复原始的图片。

在数据恢复领域,当一个文件被删除或格式化时,我们也可以通过类似的方法来恢复文件。

碎纸片拼接复原的问题不仅是一个有趣的拼图游戏,更是一个涉及计算几何、图论等多个领域的数学问题。

通过运用这些数学方法,我们可以有效地解决这个问题,从而更好地理解和应用这些数学理论。

在我们的日常生活中,我们经常会遇到一些破碎的物品,例如碎镜子、破碎的瓷器,或是碎纸片等。

这些物品的复原过程都需要一种科学的方法来帮助他们重新拼接起来。

这种科学方法就是碎纸片拼接复原技术。

碎纸片拼接复原技术是一种基于数学模型的方法,它通过比较碎纸片边缘的形状、纹理、颜色等特征,来找到碎纸片之间的相似性和关联性,从而将它们拼接起来。

基于聚类分析和灰度值匹配的碎片文件拼接复原

基于聚类分析和灰度值匹配的碎片文件拼接复原

基于聚类分析和灰度值匹配的碎片文件拼接复原刘孟娟【期刊名称】《价值工程》【年(卷),期】2013(32)32【摘要】This paper analyzes reconstruction of broken pieces of paper problem which come from the same page of the printed file, studies characteristic of character row and pixel gray level difference of edge of broken pieces of paper, and proposes stitching method for scrapped paper based on clustering analysis and grey value matching. In the end, experiments were run in Matlab 7.0 and the results show that presented algorithm can match ripped-up documents reliably.%针对同一页印刷文字文件的碎纸机破碎纸片的拼接问题,研究了碎纸片内文字行特征,碎纸片的边缘像素灰度特征,提出了基于聚类分析和灰度值匹配的碎片文件拼接算法。

通过matlab 仿真实验,结果表明该算法可靠地实现了破碎文件的拼接,效果良好。

【总页数】3页(P209-211)【作者】刘孟娟【作者单位】西安电子科技大学,西安710071; 陕西广播电视大学,西安710068【正文语种】中文【中图分类】TP391.41【相关文献】1.基于图像灰度值的碎纸片拼接复原 [J], 于翔;肖翔;江开忠;杨厉丽;古晞2.基于图像灰度值纵向切割碎纸片的拼接复原 [J], 于翔;肖翔;李路;许伯生;古晞3.基于聚类分析和贪心算法的文件碎片拼接复原 [J], 余文礼4.基于角边特征的纸质碎片自动拼接复原算法 [J], 史宝珠;李美安5.基于计算机优化算法的文档碎片拼接复原研究 [J], 李虹宇;王小卉;陈宣霖;陈颖哲因版权原因,仅展示原文概要,查看原文内容请购买。

一种基于碎纸片投影特征的拼接算法

一种基于碎纸片投影特征的拼接算法

一种基于碎纸片投影特征的拼接算法王磊【摘要】提出了一种以影像为基础的碎纸片的拼接重建算法,有别于其他基于形状重建算法,它主要通过扫描和提取碎纸的特征信息,利用纸片水平投影的分布特征,进行关联度计算,创新地将纸片的行信息归结为水平投影向量的形式,降低了纸片本身的复杂度.最后利用图论中的哈米尔顿回路的算法将纸片排序,实现碎纸片的复原工作,并以2013年全国大学生数学建模竞赛B题中的图片为例对中英文两种碎纸片进行了拼接复原实验,实验结果说明该算法有效可行.【期刊名称】《科学技术与工程》【年(卷),期】2014(014)015【总页数】4页(P241-244)【关键词】投影特征;水平投影;哈米尔顿回路【作者】王磊【作者单位】滨州学院数学与信息科学系,滨州256603【正文语种】中文【中图分类】TP391.9破碎图片或文件的重建是计算机视觉和模式识别领域的问题,其技术可运用在损毁的历史文物的还原,司法技术鉴定等领域,但已有的研究使用的方法主要是利用碎片边缘的尖点特征、尖角特征、面积特征等几何特征或者是轮廓特征来进行重建文件。

文献[1]设计了一种基于形状的自动拼接算法应用于破碎壁画的重建。

文献[2]设计了一种基于轮廓的匹配方法应用于二维碎片的重建。

文献[3]也是基于行状设计不同状况下人民币碎片的拼接算法。

国外也有大量的文献是基于行状的拼接算法[4—7]。

目前对于图片或者文件经过碎纸机处理后的碎纸片的重建的研究还很少,但应用却越来越重要,例如法庭物证的还原,历史文献的复原等,若是以人工拼凑的方式将会消耗大量的时间,需要借助计算机设计有效的算法使其得以复原。

由于大多数文字文档的文字行方向一致,相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行,凭此特征可以很容易地从形状相似的多碎片中挑选出相邻碎片,将拼接的难度降低。

主要讨论的是针对碎纸机形成的碎纸片,在缺乏可利用的边缘形状信息,且文件内容以文字为主,在合理提取其影像特征的基础上,实现其拼接。

基于聚类分析的规则文字碎片拼接技术研究

基于聚类分析的规则文字碎片拼接技术研究

基于聚类分析的规则文字碎片拼接技术研究
侯颖;何翼;刘合财
【期刊名称】《贵阳学院学报(自然科学版)》
【年(卷),期】2014(009)004
【摘要】针对目前国内外鲜有关于规则文字碎片拼接技术的研究问题,本文基于聚类分析方法及matlab程序设计提出了一种用于解决此问题的方法.对于规则文字碎片,利用图像的像素值矩阵进行分析,通过对各个碎片的边缘像素值向量进行聚类,借助最小距离进行边缘匹配,实现规则文字碎片的拼接.实验证明,该方法能够有效实现规则文字碎片的拼接.
【总页数】2页(P18-19)
【作者】侯颖;何翼;刘合财
【作者单位】贵阳学院数学与信息科学学院,贵州贵阳550005;贵阳学院数学与信息科学学院,贵州贵阳550005;贵阳学院科技处,贵州贵阳550005
【正文语种】中文
【中图分类】TP39141
【相关文献】
1.基于聚类分析和贪心算法的文件碎片拼接复原 [J], 余文礼
2.基于聚类分析和灰度值匹配的碎片文件拼接复原 [J], 刘孟娟
3.基于文档文字特征的碎纸机碎片拼接算法 [J], 赵旷逸;舒荧;段欣
4.基于蚁群算法的双面文字碎片拼接复原 [J], 李艺颖
5.基于文字特征的文档碎片拼接复原研究 [J], 耿文欣
因版权原因,仅展示原文概要,查看原文内容请购买。

基于聚类分析的无须人工干预的中文碎纸片自动拼接

基于聚类分析的无须人工干预的中文碎纸片自动拼接

基于聚类分析的无须人工干预的中文碎纸片自动拼接
罗邓娜;张洲;田雪
【期刊名称】《数学学习与研究:教研版》
【年(卷),期】2016(000)019
【摘要】碎纸片拼接问题在司法物证复原等领域有着重要的应用,为提高效率,有越来越多的学者研究自动拼接的方法.本文通过对图片进行数字化处理得到灰度矩阵后进行二值化处理,再结合碎纸片的文字特征利用聚类分析,并利用平均行距对模型进行了调整,最终实现了无须人工干预下的中文文件仅纵切和既纵切又横切的碎纸片精准自动拼接的目标.
【总页数】1页(P138-138)
【作者】罗邓娜;张洲;田雪
【作者单位】[1]合肥工业大学经济学,242099;[2]合肥工业大学电气工程及其自动化,242099;[3]合肥工业大学机械设计制造及其自动化,242099
【正文语种】中文
【中图分类】TP311.138
【相关文献】
1.基于分层聚类的仅横纵切碎中文纸片拼接分类
2.基于规则信息的文档碎纸片半自动拼接
3.基于信息丰富度的切碎中文文档自动拼接复原
4.基于单亲遗传算法的中文碎纸片全自动拼接
5.基于文字特征的规则碎纸片自动拼接
因版权原因,仅展示原文概要,查看原文内容请购买。

切碎文字图片拼接还原的算法设计与实现

切碎文字图片拼接还原的算法设计与实现

切碎文字图片拼接还原的算法设计与实现发布时间:2021-04-12T13:14:33.793Z 来源:《中国建设信息化》2020年24期作者:储成伟1 [导读] 对重要文件的拼接复原,传统上都由人工完成,拼接准确率虽然高但是效率很低。

储成伟11 武汉学院信息工程学院摘要:对重要文件的拼接复原,传统上都由人工完成,拼接准确率虽然高但是效率很低。

本文旨在建立模型,利用计算机编程加少量的人工干预实现碎纸片的拼接复原。

全等矩形破碎文字图片的拼接还原技术是一种特殊的图片拼接复原技术,它处理的图片具有明显几何规律而不能采用边沿几何形状识别拼接还原。

对于规律性较强的图片,先通过数据挖据,得到图片中所有文字占据连续像素行的平均行数,图片中两行文字间的间距(行距)占据的连续像素行的平均行数,以及每张图片所包含的文字和行距之间的交替规律即行信息向量,并对图片边沿进行二值化处理。

关键词:破碎图片;贪心算法;数据挖掘;模式识别依托武汉学院大学生创新训练项目,指导老师李丽容,湖北省教育科学规划课题-重点课题:2019GA066 1 引言破碎文件的拼接还原在复原司法物证、修复历史文献以及获取军事情报等领域都有着重要的应用。

一般地,由人工完成拼接复原,虽然准确率很高,但效率却低。

尤其是当有数量巨大的碎片时,采用人工拼接复原几乎不可能在短时间内完成。

随着计算机技术的发展,人们可以利用计算机实现破碎文件的自动拼接还原,以提高拼接复原效率,这样就可以把人从繁重的工作中解放出来,不再需要人工从大量碎纸堆中一块一块的比对寻找匹配的碎片,减轻了人的工作量和劳动强度,还能够让需求者在极短的时间内得到想要的结果,迅速准确的得到复原结果。

还原技术采用贪心算法,对图片进行拼接还原。

先从图片的行信息向量中筛选出所有可能成为第一行的图片,对这些图片的行信息向量进行聚类分析,得到第一行的所有图片的序号。

用同样的方法得到最左侧所有图片的序号,对这两个集合取交集,就得出了位于第一行第一列(左上角)的图片。

碎纸片的拼接还原研究

碎纸片的拼接还原研究

碎纸片的拼接复原摘要碎纸片的拼接复原是一门借助计算机,把大量碎纸片重新拼接成初始纸张的技术。

针对问题一,本文首先利用碎纸片图像灰度矩阵的边缘矩阵,建立了两个碎纸片之间的匹配度函数,求得了每一张图片之间左右边缘匹配度矩阵。

然后根据左边边缘位置的碎片的左边空白部分最多的特点,确定了左边位置的碎纸片。

接着根据拼接碎纸片的拼接复原时,所有碎纸片匹配度之和取极大值的原则,采用贪心算法,得到了所有碎纸片的初始位置,拼接复原了附件1和附件2中纸片。

针对问题二,由于附件3碎片数量太多,并且碎片的拼接复原,是一个以碎纸片总匹配度为目标函数的组合优化问题。

所以本文采用遗传算法将碎纸片的编号作为基因,并将基因均匀分成19段,按顺序每一段对应一个初始纸片列位置,进行了求解。

然后,根据边缘碎纸片某些边的空白部分多的特征,对初始基因进行了优化。

接着,根据碎纸片的黑色像素密度不同的特点,将碎纸片分成三类,根据同类纸片优先匹配的原则,对遗传算法的运行过程进行了优化,拼接复原了附件3和附件4中纸片。

针对问题三,随着碎纸片量的增多,计算量急剧增加。

在上述拼接复原碎纸片的基础上,又引进了同行位置碎纸片的上部(或下部)空白位置宽度相近的聚类思想。

先对每个类内部拼接,在合并所有类并做一次整体拼接。

由于时间有限,我们未能完成最后一次的整体的拼接,但我们会在比赛后继续探究。

关键词:边缘矩阵匹配度函数遗传算法聚类一、问题重述碎片拼接实际用途已经越来越广泛,传统上拼接复原工作由人工完成,碎片拼接的准确率较高,但效率很低。

并且当碎片数量很大时,人工短时间内拼接出来几乎是不可能的。

所以开发碎纸的拼接技术,以提高拼接复原效率已成为越来越多人的期望。

现在,在碎纸片是规则的情况下,题目要求我们在以下条件建立碎纸片拼接复原模型和算法。

1.来自同一页印刷文字文件(中文、英文各一页)的碎纸机破碎纸片(仅纵切)拼接复原,并将附件1和附件2复原。

2.对碎纸机既纵切又横切文件的情形,将碎纸片拼接完整。

碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终引言碎纸片的拼接复原是一项有趣且具有挑战性的任务。

无论是为了还原重要文件还是拼接有意义的图像,我们都需要使用各种技巧和方法来完成这项任务。

本文将介绍一种基于分析的碎纸片拼接复原方法,通过对碎纸片的形状、颜色和纹理等特征进行分析,最终达到拼接复原的目标。

碎纸片的特征提取在进行碎纸片的拼接复原之前,首先需要提取碎纸片的特征。

这些特征包括碎纸片的形状、颜色和纹理等。

形状特征提取为了提取碎纸片的形状特征,可以通过计算碎纸片的边界和角度来获得。

首先,使用图像处理技术,如Canny边缘检测算法,将碎纸片的边缘提取出来。

然后,使用霍夫变换来检测碎纸片的直线和角点,从而计算出角度和边界。

颜色特征提取碎纸片的颜色特征可以通过计算图像的颜色直方图来得到。

颜色直方图表示了图像中每个颜色的像素数量。

我们可以使用像素级别的颜色分布来比较不同碎纸片的颜色特征,并找到相似的碎纸片来进行拼接。

纹理特征提取碎纸片的纹理特征可以通过计算图像的纹理描述符来得到。

纹理描述符是用于描述图像纹理的数值特征。

其中,最常用的纹理描述符包括灰度共生矩阵(GLCM)和局部二值模式(LBP)。

通过计算碎纸片的纹理描述符,我们可以比较不同碎纸片之间的纹理相似度,并选择相似的碎纸片进行拼接。

碎纸片的拼接策略在完成碎纸片特征提取后,接下来需要制定碎纸片的拼接策略。

拼接策略将基于碎纸片的特征相似度和拼接的整体目标来确定。

相似度匹配根据碎纸片的形状、颜色和纹理特征,我们可以计算两个碎纸片之间的相似度。

一种常用的相似度计算方法是使用余弦相似度,它衡量两个向量之间的夹角。

通过计算碎纸片之间的相似度,我们可以找到最相似的碎纸片来进行拼接。

拼接顺序在进行碎纸片的拼接时,需要制定一个拼接顺序。

一种常用的策略是首先选择与已拼接部分最相似的碎纸片进行拼接,然后逐渐增加已拼接部分的面积,直到最终完成拼接。

拼接约束为了保证拼接的准确性,我们需要制定一些拼接约束。

基于聚类优化模型的碎纸自动拼接方法研究

基于聚类优化模型的碎纸自动拼接方法研究

基于聚类优化模型的碎纸自动拼接方法研究张亮【摘要】碎纸自动拼接算法是计算机图形图像应用的一个热点领域.对于碎纸拼接主要由计算机图像预处理、图形图像特征提取和图像匹配三个过程组成.针对中文内容碎纸和英文内容碎纸的区别,给出了两种不同的图像特征提取方法.首先建立聚类模型对碎纸图像中提取的图像特征值进行K-mean聚类得到属于同一行的碎片集合;然后建立旅行商优化数学模型,以拼接方案特征值误差平方和最小为目标函数,实现同一行碎片集合的排序,形成完整一行的图像;最后利用优化数学模型实现不同行图像的排序.实验结果显示:该拼接算法可以给出准确的拼接方案,且求解迅速,无需进行人工干预,实现真正的全自动拼接.【期刊名称】《计算机应用与软件》【年(卷),期】2015(032)012【总页数】4页(P218-221)【关键词】图像拼接;系统聚类;旅行商最优化【作者】张亮【作者单位】浙江工业大学经贸管理学院浙江杭州310023【正文语种】中文【中图分类】TP3碎纸自动拼接技术是计算机图像识别领域的一个较新、较典型的应用。

对于规则的碎纸拼接主要由计算机图像预处理、图像特征提取和图像匹配三个部分组成。

碎纸拼接技术在司法物证复原、历史文献修复以及军事情报获取等领域中有着非常关键的作用。

目前,国际上欧洲等国家对于破碎文件的自动修复技术进行了相当长时间的研究。

但由于专业技术壁垒,国内的研究成果并不多见诸报道[1]。

传统上,对于碎纸拼接过程还是过分依赖人为干涉。

当碎纸图像较多、内容较复杂时,不但耗费大量人力和时间,还可能对纸张信息造成损害。

因此,以提高拼接复原效率为目的,研究开发一种高效碎纸图像自动拼接技术是十分必要的。

前东德情报机构官员将大量绝密文件碎成6亿多块碎纸并丢进16 000个垃圾桶,史学家们预计采用人为干预的方式将花费400年的时间对文件进行恢复[2]。

现在国内外专家对于碎纸自动拼接技术的研究主要聚焦在以下两个方面:图像特征值提取和图像匹配。

基于聚类的规则文档碎纸片拼接算法

基于聚类的规则文档碎纸片拼接算法

基于聚类的规则文档碎纸片拼接模型摘要:本文针对碎纸机破碎文档后的规则碎纸片拼接问题,提取碎纸片的颜色特征,通过对碎纸片上边缘的灰度向量将文档分为上边缘为非空白区域和上边缘为空白区域两大类,再分别以上边缘非空白区高度和空白区高度作为聚类参数,将纸片分为若干簇,在每一个簇中利用相邻两张碎纸片左右边缘向量相似度高来进行拼接,得到若干横条的纸片,然后以行距和横条间上下边缘相似度为参数来将若干横条拼接为完整文档。

1. 引言破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。

特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。

随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。

破碎文档的自动拼接问题是计算机视觉和模式识别领域内的一个问题,是通过计算机处理,获取碎纸片的形状、颜色等内容信息,然后利用这些内容信息对碎纸进行自动拼接,恢复碎纸原始的内容。

本文主要针对碎纸机破碎后的规则文档碎纸片的拼接问题,提出了一种基于k-均值聚类[1-3]的碎纸片拼接模型。

通过提取碎纸片边缘特征进行聚类,将纸片分为若干簇,在每一个簇中利用相邻两张碎纸片左右边缘向量相似度高来进行拼接,得到若干横条的纸片,然后以行距和横条间上下边缘相似度为参数来将若干横条拼接为完整文档。

本文提出的基于聚类的规则文档碎纸片拼接模型减少了边缘向量相似度的计算次数,提高了算法的效率。

由于主要解决碎纸机破碎文件后的规则文档碎纸片问题,现将算法前提假设如下: ⑴假设文档是黑字白底文档。

⑵假设碎纸机对文档的切割都是垂直和水平方向的,即碎纸片都是长方形纸片。

⑶假设所有碎纸片的长和宽均相等。

⑷假设文档碎纸片恰好能拼成一张完整的文档。

2. 特征提取假设一共有M ×N 张破碎的纸片,每张碎片的大小为m n ⨯。

对每一张碎片用灰度矩阵(1,2,3,,)k A k M N =⋅⋅⋅⨯表示如下:111212122212,[0,255],[1,],[1,]n n k ijm m mn a a a a a a A a i m j n a a a ⎡⎤⎢⎥⎢⎥=∈∈∈⎢⎥⎢⎥⎣⎦其中由于每张碎纸片分为白色区域和非白色区域,为了方便计算将碎纸片进行二值化处理,白色区域的灰度值置位0,非白色区域的值置为1,得到对应的布尔矩阵(1,2,3,,)k B k M N =⋅⋅⋅⨯表示如下:1112121222120,127,,[1,],[1,]1,127n ij n k ijij m m mn b b b a b b b B b i m j n a b b b ⎡⎤⎢⎥≥⎧⎪⎢⎥==∈∈⎨⎢⎥<⎪⎩⎢⎥⎣⎦其中提取每张碎纸片上下左右四个边缘向量,分别用,,,(1,2,,)k k k k u d l r k N =表示如下:11121311231112311123[,,,,][,,,,][,,,,][,,,,]k n k m m m mn k m k n n n mn u b b b b d b b b b l b b b b r b b b b ====若k u 为零向量,则认为碎纸片的上边缘为空白区域,设上边缘空白区域的高度向量12{,,,}upblank n H HUBlank HUBlank HUBlank =若k u 不为零向量,则认为碎纸片的上边缘为文字区域,设上边缘文字区域的高度向量12{,,,}upword n H HUWord HUWord HUWord =同理可得到1212121212{,,,}{,,,}{,,,}{,,,}{,,,}n n n n n downblank downword leftblank leftword rightblank r HDBlank HDBlank HDBlank HDWord HDWord HDWord WLBlank WLBlank WLBlank WLWord WLWord WLWord WRBlank WRBlank WRBlank H H W W W W =====12{,,,}n ightword WRWord WRWord WRWord =通过矩阵k B 列向量和行向量中连续0和连续1的个数的统计,并对他们的个数取众数, 得到每一行文字的高度word H 、行距line D 、宽度word W 和字间距word D .3. 拼接方法根据同一横条的碎片的上边缘一般同属于空白区域或同属于非空白区域,并且空白区域高度或非空白区域高度基本相同的特点。

基于文字特征的规则碎纸片自动拼接

基于文字特征的规则碎纸片自动拼接

基于文字特征的规则碎纸片自动拼接
马俊明;赖楚廷;卜尚明;李健
【期刊名称】《汕头大学学报(自然科学版)》
【年(卷),期】2014(029)002
【摘要】通过分析具有规范版式的中文文档,以2013年全国大学生数学建模竞赛B题附件3的数据为样本,提出基于文字特征的规则碎纸片的自动拼接算法.该算法通过研究文字行高、间距等特征构建一系列分类准则对碎纸片进行分类,并将分类后的同一行碎纸片排列问题转化为旅行商问题进行求解,最后将组行成页问题再次转化为旅行商问题进行求解,实现规则碎纸片的自动拼接.根据该算法编写MATLAB 和LINGO的程序对规则切割形成的碎纸片进行了拼接试验,试验结果表明该算法效果较好.
【总页数】8页(P4-10,59)
【作者】马俊明;赖楚廷;卜尚明;李健
【作者单位】汕头大学理学数学系,广东汕头515063;汕头大学理学数学系,广东汕头515063;汕头大学理学数学系,广东汕头515063;汕头大学理学数学系,广东汕头515063
【正文语种】中文
【中图分类】TP301;O29
【相关文献】
1.基于规则信息的文档碎纸片半自动拼接 [J], 刘冲冲;朱家明;苏思美
2.规则碎纸片自动拼接技术研究 [J], 冯变英;李秋英;张博;张小珍;程虹虹
3.基于文字特征和边缘特征的文本碎纸片拼接 [J], 刘赐德;黄志祥;管一弘;赵建军
4.基于文字特征的文档碎纸片半自动拼接 [J], 罗智中
5.基于特征点匹配的双面碎纸片自动拼接复原 [J], 杨伟芳;王锦升;邹德玉
因版权原因,仅展示原文概要,查看原文内容请购买。

基于聚类的规则文档碎纸片拼接模型

基于聚类的规则文档碎纸片拼接模型

2
拼接方法
并且空白区域高度或 根据同一横条的碎片的上边缘一般同属于空白区域或同属于非空白区域 , 非空白区域高度基本相同的特点 。 本文设计了一种先通过空白区域高度或非空白区域高度进行聚 类, 得到有可能属于同一横条的碎片的集合 , 然后再计算边缘向量相似度来调整碎片的位置关系的算 法。 2. 1 基于 k - 均值聚类的碎纸片划分方法 通过对碎纸片的特征提取, 得到上边缘是空白的碎片计算其空白区域的高度向量 H upblank = { HU-
通过对碎纸片上边缘 的 灰 度 向 量 将 文 档 分 为 上 边缘 摘要: 针对碎纸机破碎文档后的规则碎纸片拼接问题, 为空白和非空白区域两大类, 再分别以上边缘非空白区高度和空白区高 度 作 为 聚 类 参 数, 将 纸片 分 为 若干 簇, 在每一个簇中利用相邻两张碎纸片左右边缘 向 量 相 似 度 来 进行 拼接, 得 到 若干横条 的 纸片, 然后 以行 距和横条间上下边缘相似度为参数来将若干横条拼接为完整文档。 关键词: K - 均值聚类; 碎纸片; 拼接模型 中图分类号: TP391. 41 文献标识码: A 2714 ( 2014 ) 03-0079-04 文章编号: 1009doi: 10. 3969 / j. issn. 1009 - 2714. 2014. 03. 018
f ( m1 , m2 , …, m k ) = ∑ ∑ dist( Hword i , mi )
i = 1 Hword1 ∈C i
k
m i ) 表示 Hword i 到 m i 的距离。 最小, 其中 dist( Hword l , : k - 。 算法 均值 H upword 包含 n 个对象的数据集。 输入: 结果簇的数目 k, C2 , …, Ck } , 输出: k 个簇的集合{ C1 , 使得所有对象与其最近中心对象的距离之和最小 。 m2 … m k , …, m k = max ( H upword ) , m2 , 令 m1 = min ( H upword ) , ①初始化 k 个簇的中心对象集合 m1 , m k - 1 任意选取, j≤k 且 i ≠j) ; 且 m i ≠m j ( 1 ≤i , ②根据簇中对象的均值, 将每个对象分配到最相似的簇; ③更新簇均值, 即重新计算每个簇中对象的均值; ④重复②, ③直到不再发生变化. 2. 2 碎纸片拼接模型 C2 , …, Ck } , 由 k - 均值聚类得到 k 个簇的集合{ C1 , 根据进行聚类的特征, 可以初步认为每一个 聚类来自同一横条。对每个一个簇 C i 中的图片进行横向拼接。 l j 的相差度 d 的最小值, 建立最优化模型, 计算簇 C i 内的每张碎纸片的左右边沿向量 r i , 即 j∈[ 1, M × N] 目标函数 Min( d) = | r i - l j | ( i, 且 r i ≠0 且 l j ≠0 ) . 则当相差度 d 的值最小时, 这两张碎纸片的匹配度最高。 C 由于簇 i 中可能存在一些并不属于同一横行的碎纸片被误判在同一簇中 , 所以设定经验阈值 ξ. 若 Min( d) > ξ, 则不进行碎纸片的横向拼接。 lj = 0, 若 ri = 0, 则计算 similarity = | WRBlank i + WLBlank j - D word | ( i, j∈[ 1, M × N] 且 i ≠j) WRBlank i ∈W rightblank , WLBlank j ∈W leftblank . 其中, 设定经验阈值 η, 若 similarity < η, 则进行拼接, 否则不进行拼接。 水平拼接完成后, 得到 M 横条 L2 , …, L M } . 计算 I 中每一张横条的上下边沿向量 u i , d j 的相差度 dis 的最小值, 的碎纸片, 记 I = { L1 , j∈[ 1, M × N] 即目标函数 Min( dis) = | u i - d j | ( i, 且 i ≠ j 且 u i ≠0 且 d j ≠0 ) 则当相差度 dis 的值最小 时, 这两张横条的匹配度最高。 l j = 0 则计算横条的上边缘空白区域的高度 LHUBlank i 和下边缘空白区域的高度 LHD若 ri = 0, Blank j . similarity = | LHUBlank i + LHDBlank j - D line | ( i, j∈[ 1, M × N] , i ≠j) 若 similarity < λ , 则进行拼接, 否则不进行拼接。 设定经验阈值 λ ,

碎纸片拼接问题(2013B)

碎纸片拼接问题(2013B)

方法2:聚类算法:主要方法,效果好。
• 计算 Ai 的行和,得到一个特征向量 ri 。定义适当的 向量相似度指标,对 ri 进行相似度计算,然后对所有 碎片进行聚类,得到分行结果。
几种相似度度量指标:
1 欧式距离倒数: d ij || ri r j ||
夹角余弦: cos ij || r || || r || i j 相关系数: ij
规划方法:将每一行的碎片依次编号为 1, 2, , N . 定义两碎片之间的有向距离为 cij 。
令 xi ,k 1, 第 i 块碎片在第 k 个位置上 否则 0,
ห้องสมุดไป่ตู้
min z
N 1 N
c
k 1 i 1 j 1 , j i
N
ij
x i ,k x j ,k 1
c
MN
k ,l
x i , j , k x i , j 1 ,l

M 1 N MN
i 1 j 1 k 1 l 1 , l k
d
MN
k ,l
x i , j ,k x i 1 , j ,l
约束条件: (1)每个碎片只能放在一个位置上。
x
i 1 j 1
(1)整体的文字拼接正确度;
不易衡量。
(2)纸片两两之间的拼接正确度。
•如何计算纸片两两之间的拼接正确度? 分析:假设纸片 i 和 j 拼接在一起,i 左 j 右,则 应该可以计算出一个相关的正确度指标。 怎么计算?
• 利用什么信息计算? 利用Matlab 软件读取碎片,生成相对应的灰度值 数字矩阵 Ai 。
如何确定碎纸片的位置?
方法一:一次性确定所有碎纸片的位置。 方法二:分组确定碎纸片的位置。 方法三:逐一确定碎纸片的位置。

关于中英文的碎纸片拼接复原问题研究_李晓霞

关于中英文的碎纸片拼接复原问题研究_李晓霞

破碎文件的拼接在司法物证复原 、 历史文献修复 以及军事情报获取等领域都有着重要的应用 。 传统 上, 拼接复原工作需由人工完成, 准确率较高, 但效率 人们试图开发碎纸片 很低 。随着计算机技术的发展, 以提高拼接复原效率 。 目前有许多 的自动拼接技术, 学者研究图片碎片的拼接技术 与算法 。
[1 - 5 ]19 19 Nhomakorabea, 给出了许多思想
本文以 2013 全国大学生数学建模竞赛 B 题为例, 研究无噪声形状为矩形的碎纸片的拼接复原 。 用到的 y) 表示 x 与 y 的相关系数; x, y 分别 数学符号说明: f ( x, k i 表示与第 i 行最左侧或 表示图片的左 、 右边界信息 。 最右侧边界信息相类似的图片个数 。 1. 基于纵切的中英文碎纸拼接复原算法 1. 1 问题分析 附件 1 和 2 给出了 19 条汉字和英文碎片, 破碎纸 片都是来自同一张打印文件, 也就是说每个文件的字 体大小相同, 字体间隔, 还有行距都是一样的, 观察左 右边缘处, 发现有很多文字被切开, 因此碎片的拼接转 化成对边缘处被截断的字符的拼接 。拼接的时候只要 边界信息的匹配度最高, 就可近似认为是拼接成一个 完整的字符 。 首先用 MATLAB 导入数据, 分析数据, 每一列的 255 , 数据有 0 , 以及 0 到 255 之间的某些数, 其中 0 代 255 代表白色, 0, 255]之间的数按颜色 表黑色, 处于[ 由黑到白依次变化, 即代表灰色。 首先找出左边空白 列( 全是 255 的列) 最多的碎纸片即为纸张的最左侧,
13
11. 得到如下的表 4 : 表5
匹配个数 图片 参数 ( ki ) 123 4 196 6 43 5 17 18 18 25 20 18 18 18 20 18 18

碎纸片的拼接复原问题大学生数学建模全国一等奖

碎纸片的拼接复原问题大学生数学建模全国一等奖

碎纸片的拼接复原问题摘要为解决碎纸片的拼接复原问题,我们通过定义差异度指数、高度差,建立0-1规划模型,使用聚类分析、MATLAB搜索算法和人工干预等相结合,得到了所有附件复原序号和复原图片。

针对问题一,首先提取附件1、2中所有碎片左侧和右侧边缘灰度,通过任意列碎片右侧和任意列碎片左侧的边缘灰度差值可以定义差异度指数,从而得到差异度特征矩阵,然后建立0-1规划模型,以第i张碎片右侧与第j张碎片左侧差异度最小为目标函数,以第i张碎片右侧与第j张碎片左侧是否相连为决策变量,以每张碎片右侧一定与某张碎片左侧相连、每张碎片左侧一定与某张碎片右侧相连为约束条件。

算法为先提取任意张碎片边缘灰度值,得到差异度矩阵,带入规划模型中,通过LINGO软件找到中英文碎片的拼接方法,得到复原序号如表一、表二,从而得到出中文与英文复原图片。

表一:中文碎片的复原序号表二:英文碎片的复原序号片拼接方法。

结果表明两种方法得出的中英文复原顺序相同,复原图片相同,同时人工检验中英文复原图片中无明显语法、单词错误,证明复原图片准确。

针对问题二,由于每张碎片有左侧、右侧和上侧、下侧,与问题一相同,可以定义两个差异度指数,建立双目标0-1规划模型。

但由于差异度矩阵过大,决策变量复杂,我们又建立了改进的简化模型,定义高度差,运用聚类分析方法,按照高度不同将所有碎片分为18类,然后再以第j块碎片左侧与第i块碎片右侧的差异度最小为目标函数,以第i块碎片右侧与第j块碎片左侧是否相连为决策变量,以每块碎片右侧一定与某块碎片左侧相连、每块碎片左侧一定与某块碎片右侧相连,满足高度差阈值为约束条件,建立单目标0-1规划模型。

算法为先提取任意块碎片边缘灰度值和高度,得到差异度矩阵,编程将中文碎片按高度分为18类,人工干预分为11行,再利用问题一中碎片纵向复原方法,得到中文复原序号,画出中文复原图片。

(英文复原模型相似,仅高度差阈值不同)针对问题三,对于双面英文碎片的复原问题,我们提出了单词残缺程度的定义,定量的描述了英文碎片的特征信息,构成了算法的核心内容,运用编程和人工干预将碎纸片分为11类,每类19个碎片,在此基础上利用前两问所建的0-1规划模型,再加上双面的一些约束条件,得到双面英文复原序号,并绘出英文双面复原图片。

基于动态聚类的文档碎纸片自动拼接算法

基于动态聚类的文档碎纸片自动拼接算法

基于动态聚类的文档碎纸片自动拼接算法尹玉萍;刘万军;张冲;刘永超【摘要】针对碎纸机三种碎纸模式进行拼接复原,提出了一种基于动态聚类的文档碎纸片自动拼接算法,定义了匹配度矩阵计算两块碎片最合理的拼接方式,设计了一种基于碎纸片特征向量的动态聚类行聚类算法进行行初步聚类,根据文字特征线及计算出的行距对初步聚类进行了调整修正,确定最终的行分类及行间顺序,根据提出的动态四邻近匹配算法,匹配出复原结果。

实验表明,该方法实现简单,成功率高,能快速得到碎纸片的三种碎纸模式的拼接复原结果。

%This paper proposes an automatic documents fragment re-assembly algorithm based on dynamic clustering. It defines the matching matrix and calculates two fragments most reasonable splicing. It designs a dynamic line clustering algorithm based on eigenvector of torn pieces for a preliminary clustering. According to the text characteristic line and spacing, it adjusts the results of preliminary clustering, which can determine the final line classification and order. It matches the recovery results according to dynamic four adjacent matching algorithm. Experiment results show that this method is simple, and success rate is high, and can get stitching recovery results quickly.【期刊名称】《计算机工程与应用》【年(卷),期】2014(000)018【总页数】6页(P162-166,170)【关键词】动态聚类;碎纸拼接;匹配度矩阵;碎纸片特征向量【作者】尹玉萍;刘万军;张冲;刘永超【作者单位】辽宁工程技术大学电气与控制工程学院,辽宁葫芦岛 125105;辽宁工程技术大学软件学院,辽宁葫芦岛 125105;辽宁工程技术大学电气与控制工程学院,辽宁葫芦岛 125105;辽宁工程技术大学电气与控制工程学院,辽宁葫芦岛125105【正文语种】中文【中图分类】TP3011 引言碎纸片自动拼接技术是图像处理与模式识别领域中的一个较新但是很典型的应用[1],它是通过扫描和图像提取技术获取一组碎纸片的形状、颜色等信息[2-4],然后利用计算机进行相应的处理从而实现对这些碎纸片的全自动或半自动拼接还原[5-7]。

基于聚类的规则文档碎纸片拼接模型

基于聚类的规则文档碎纸片拼接模型

基于聚类的规则文档碎纸片拼接模型明巍;鹿秀丽【期刊名称】《湖北师范学院学报(自然科学版)》【年(卷),期】2014(000)003【摘要】针对碎纸机破碎文档后的规则碎纸片拼接问题,通过对碎纸片上边缘的灰度向量将文档分为上边缘为空白和非空白区域两大类,再分别以上边缘非空白区高度和空白区高度作为聚类参数,将纸片分为若干簇,在每一个簇中利用相邻两张碎纸片左右边缘向量相似度来进行拼接,得到若干横条的纸片,然后以行距和横条间上下边缘相似度为参数来将若干横条拼接为完整文档。

%In this paper, a method that the paper fragments of rule document is reconstructed is provided .The paper fragments is divided into the upper edge of the blank and non -blank area into two categories by the gray vector on theedges .Respec-tively, the height of the upper edge of the blank and non -blank area as the clustering parameters is calculated .The paper fragments will be divided into several clusters .The reconstruction of paper fragments depends on computing the similarity of the left and right edges of adjacent pieces of paper in each cluster .After getting the number of bars of the paper , the paper fragments of rule document is reconstructed by computing the similarity between the top and bottom edges of the bar .【总页数】4页(P79-82)【作者】明巍;鹿秀丽【作者单位】湖北师范学院数学与统计学院,湖北黄石 435002;黄石市中心医院信息部,湖北黄石 435002【正文语种】中文【中图分类】TP391.41【相关文献】1.基于分层聚类的仅横纵切碎中文纸片拼接分类 [J], 熊保平;祝丽华2.基于规则信息的文档碎纸片半自动拼接 [J], 刘冲冲;朱家明;苏思美3.基于动态聚类的文档碎纸片自动拼接算法 [J], 尹玉萍;刘万军;张冲;刘永超4.基于聚类分析与欧氏距离模型的碎纸片拼接复原 [J], 谢亚旗;缪杨;梁伟;王韵;安秋平5.规则文档碎纸片的多元统计分析拼接复原方法 [J], 石欣;梁妙珠;李琪琛;邱雷因版权原因,仅展示原文概要,查看原文内容请购买。

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档