数学建模国赛国家一等奖论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1期
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要应用。传统的拼接复原由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。文献[1]给出5个碎纸片实例,对应三个复原问题,要求分别建立拼接复原模型和算法,并完成复原。如果复原过程需要人工干预,需写出干预
方式及干预的时间节点。
1问题一
一页单面印刷文字的文件被纵向切割成19
条碎纸片,按0~18编号,且顺序打乱。附件1、附件2[1]给出中、英文各一页文件的碎片图像,要求拼接复原。1.1
数字化图像处理
将图像分为有限个离散点(x ,y )
,每个离散点收稿日期:2014-09-12
作者简介:王智刚,沈晔星,郭羽涵均为参赛选手;本文获2013年高教社杯全国大学生教学建模竞赛本科组全国一等奖,指
导教师为邱中华。
破碎文件碎纸片的自动拼接复原
王智刚a ,沈晔星a ,郭羽涵b ,邱中华c
(南京邮电大学 a.通信与信息工程学院;b.电子科学与工程学院;c.理学院,南京210023)
摘要:针对文献[1]提出的三个问题,讨论文件碎纸片的计算机自动拼接技术。利用像素点作数字
化图像处理,引入图像梯度和碎片边缘特征差异度计算公式,建立最短路径的规划模型,对碎片进行最优化匹配;根据中英文字特点,给出不同的碎片行特征确定方法,据以解决聚类与纵向拼接。经过LINGO 运行,
得到了5份碎片实例的拼接复原结果。关键词:碎纸片拼接;数字化处理;最短路径;边缘特征;差异度;行特征;聚类中图分类号:TP391.41
文献标志码:A
文章编号:1008-5327(2015)01-0067-05
Splice Recovery of Broken File Fragments
WANG Zhi-gang a ,SHEN Ye-xing a ,GUO Yu-han b ,QIU Zhong-hua c
(a.School of Communication and Information Engineering;b.School of Electronic Science and Engineering;
c.School of Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)Abstract :As for three questions presented by document[1],the paper discussed the computer automatic splic -ing technology of file fragments.Author processed digital image by using pixel,and introduced the image gra -dient and difference degree calculation formula of fragment edge characteristic;then it established planning model with shortest path to optimally match fragments.The paper presented different methods to determine different fragments line characteristics according to characteristics of words in both English and Chinese.Fi -nally,recovery results of five slice fragment instance were attained after LINGO operation.
Key words:fragments splice;digital process;shortest path;edge characteristic;different degree;line charac -teristics;cluster
Vol.29No.1Mar.2015第29卷第1期2015年3月!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
南通职业大学学报
JOURNALOFNANTONGVOCATIONALUNIVERSITY
doi:10.3969/j.issn.1008-5327.2015.01.017
67
南通职业大学学报
2015年
都有特定的位置和灰度,称为像素点[2],图像的灰度定义为二维离散函数f (x ,y )。利用MATLAB 的数字图像输入功能可建立函数f (x ,y )。由于图像并不只是黑和白,文字周围还存在灰色部分,所以实际处理时,黑色像素点取数值255,
灰色像素点根据灰度取值254~1,白色像素点取值0。取每张碎片左、右两个边缘纵向上的像素点f (1,y ),f (72,y )作为该碎片的特征点。1.2
图像的梯度与匹配度
对图像的二维离散函数求导,可反映图像的
边缘特征。定义图像梯度[3,4]
为
G (x ,y )=[f (x +1,y )-f (x ,y )]+[f (x ,y +1)-f (x ,y )],碎片i 与碎片j 的边缘特征差异度为
R i j =1
n
n
y =1
移
G i (k ,y )-G j (1,y ),
其中n 为总行数。由此可得碎片之间的梯度差距表(R i j )19×19,
在除R i j =0以外的有效数据中,最小数值代表两碎片的图像梯度差距最小,匹配度最高,有可能是相邻的碎片。1.3
最短路径的规划模型
利用最短路径算法建立碎片匹配的最优化模型。做出如下类比:
碎片间两两的边缘特征差异两两碎片间的“路径”;
是否拼接该碎片是否“经过”该碎片。引入0-1矩阵(B i j )19×19,其中B i j =1表示经过该点,B i j =0表示不经过该点。
优化模型的目标函数为经过所有碎片的路径最短,约束条件为路径能够经过所有的碎片且每个碎片仅经过一次。
最短路径的数学模型为[5,
6]
min f =18
i =0移18
j =0移R i j B i j
s .t .
18
i =0
移B
i j
=1,18
j =0
移B i j =1,B i j ·B j i =0,
0≤i ,j ≤18,i ≠j 。1.4
模型求解
将图像数字化处理为像素点后,可以确定左列特征点都为白点的碎片为第一片,此后基于图像梯度和文字边缘特征,根据上述最短路径模型,用LINGO 求解最优路径,无需人工干预即可依次确定碎片的最佳拼接顺序。实际计算的结果:中文文件由左到右的复原
碎片编号为:
8,14,12,15,3,10,2,16,1,4,5,9,13,18,11,7,17,0,6。
英文文件由左到右的复原碎片编号为:3,6,2,7,15,18,11,0,5,1,9,13,10,8,12,14,17,16,4。
按这一顺序拼接附件1和附件2的图片,即可得到中文文件和英文文件的复原图。
2问题二
一页单面印刷文字的文件被纵向又横向切割成11×19=209块相同大小的矩形碎纸片,按0~
208编号,
附件3、附件4[1]给出中、英文各一页文件的碎片图像,要求拼接复原。
2.1中文碎片的复原
2.1.1行特征及碎片的聚类
引入行特征:从底部起,取第一个纵向完整的行到碎片下边缘的间距(用像素点的个数表示)为该碎片的行特征d ,如图1所示。
打印稿的行间距为68个像素点,所以应有
d ≤68。
如果出现d >68,说明少了一到两行文字,可减去68的整数倍,使之恢复到d ∈[0,68]。
由于附件3中的碎片及文字都是正向放置,所以同一行向碎片的行特征应当一致,由此可以按照行特征将碎片聚类。不过有些汉字的长度不一样,会使少部分同行碎片的行特征存在差异,但差异很小,不会影响聚类。聚类结果为:
d =2,9,15,21,28,33,40,46,52,58,64,共分为11类,每类碎片的个数均为19。在该聚类的基础上,可用1.3节的最短路径模型对每一类碎片实施行拼接。2.1.2
行碎片的纵向拼接
单张碎片像素为72×180,即单张碎片纵向有
180个像素点,
上下吻合拼接的两张碎片中,会有2~3个完整的文字行。
设上、下两个碎片的行特征分别为d 0和d ,则d 0+(180-d )恰好容下这些完
类比
类比
图1中文行特征
d
d 68