基于短文本相似度计算的工序卡片相似度计算方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

科学技术创新
基于短文本相似度计算的工序卡片相似度计算方法
童伟王淑营
(西南交通大学信息科学与技术学院,四川成都610000)
随着工艺技术的发展,各制造型企业的产品数量和种类不断增多,伴随着产品的工艺设计产生的工序卡片数量也在激增。

在如此庞大的工序卡片数量之下,想要靠人工来找出与一张工序卡片相似的其它工序卡片进行推荐几乎是不可能完成的任务,但工艺员在进行工序设计时,与该工艺相似的工序卡片能够为工艺员提供参考,能够极大的提高工艺员的工序设计效率。

如何从海量的工序卡片中找到相似的工序卡片是迫切需要解决的问题,而文本相似度判断技术的发展为解决该问题提供了有力的技术支持。

本文以机械制造型企业的工序卡片为研究对象,基于工艺的特点,通过结合J accar d相似度计算方法与Levens ht ei n距离计算方法,计算出两张工序卡片中各个需要参与相似度判断的项之间的相似度,然后将各项之间的相似度相结合,最终获得两张工序卡片的相似度。

1相关研究工作
相似度计算算法的选择是本研究最重要的部分,目前,常见的文本相似度计算方法有闵可夫斯基距离、曼哈顿距离、欧氏距离、余弦相似度、杰卡德相似系数、计算编辑距离等,随着信息技术的发展,国内外学者对文本相似度计算方法的研究不断深入,藏润强,孙红光等人基于Levens ht ei n和TFR SF提出了一种文本相似度计算方法,石彩霞等人提出了一种多重检验加权融合的短文本相似度计算方法,艾楚涵,姜迪等人基于主题模型和文本相似度计算进行了专利推荐的研究,郭浩、许伟等人基于CN N和Bi LSTM提出了一种短文本相似度的计算方法,J i aqi Y ang,Y ongj un Li等人基于语义和句法信息提出了一种文本相似度的度量方法,考虑到两工序卡片各个项之间文字数量较少,属于短文本的特点,初步选出杰卡德相似系数与计算编辑距离这两种适合计算短文本相似度的方法。

2方法
2.1杰卡德相似系数
本文所使用的杰卡德相似系数基本公式为:
其中的A和B代表的是文本的组成字符的集合,其中,
代表的是这两个集合中相同字符的个数,代表的是这两个集合所有的不重复字符个数。

2.2计算编辑距离
本文所使用的Levens ht ei n最小编辑距离的计算公式为:
该距离是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换。

可以看出,在同等字符串长度下,两字符串的相似度越高,计算编辑距离的值反而越小,不便于后续计算。

因此,本文提出另一种表示计算编辑距离的相似度的方法,将计算编辑距离得出的结果转换为计算编辑距离相似度表示,其公式为:
k=(p-q)/p
p:两字符串中长字符串的长度。

q:最少操作次数。

k:计算编辑距离相似度。

可以看出,在两字符串完全不同时,其计算编辑距离相似度为0,随着字符串相似度的增大,其计算编辑距离相似度也随之增加,在两字符串完全相同时,其计算编辑距离相似度为1。

2.3分别计算两类工序项间相似度并结合
工序卡片的产品名称、零件名称和工序名称这类项能直接通过单项相似度来判断工序卡片相似度,且工序卡片相似度随这些项相似度提高而提高,将这类项归为一类(下文简称第一类),这类项的相似度计算方法采用结合杰卡德相似系数与Levens ht ei n最小编辑距离两种短文本相似度计算公式的方法,具体相似度计算公式如下:
(1)
第一类工序项单项相似度计算公式
(2)
第一类工序项总相似度计算公式
摘要:本文针对工艺知识提取和重用需求,从工艺特征与工艺相似度关联关系入手,提出了一种基于工艺特征分类的Jaccard相似度计算与Levenshtein距离计算相结合的工序卡片相似度计算方法。

首先,针对工序的特点,将工序卡片的工序项分为两类,结合杰卡德相似系数与计算编辑距离两张短文本相似度计算方法,计算出两张工序卡片第一类工序项的相似度;针对第二类工序项的特殊性,将第二类工序项按是否相同设置固定的相似度后,再根据工艺的特点进行结合,计算出两张工序卡片的相似度。

实验结果表明,该工序卡片相似度计算方法能较为准确的判断出两张工序卡片的相似度。

关键词:工艺重用;工序卡片;相似度计算;工艺特征;算法结合
中图分类号:TP391文献标识码:A文章编号:2096-4390(2021)
17-0104-03四川省科技计划项目2020YJ0215数字孪生车间生产组织与自调节研究。

104
--
2021.17科学技术创新图278%工序名称占比下不同零件名称占比相似度计算准确
度
将加工设备名称、夹具名称这类名称相同工序不一定相似,
但名称不同工序间差异较大,所以不便于通过单项相似度来直接判断工序卡片相似度的项归为另一类(下文简称第二类)。

这些项与工艺相似度虽有较大联系,但与第一类中的项不同,存在一定的特殊性,其特殊性在于:这些项若有一个字不同,则表达了两种完全不同的含义,如工艺车床与工艺铣床只有一字之差,表达的却是两种完全不同的设备,其能处理的工艺也完全不同。

所以这些项不便于用文本相似度判断方法判断相似度。

本文根据这一特殊性,通过实验后,提出一种较为实用的判断此类项相似度的方法:若两张工序卡片中的此类项的同一项完全相同,则此项相似度为1,若不同,不管差异大小,此项相似度记为0,相似度计算公式如下:
(3)第二类工序项单项相似度计算公式(4)第二类工序项总相似度计算公式在得出两类工序项的相似度后,需对其进行结合。

两类项的相似度都对两张工序卡片的最终相似度有极大影响,需避免出现若某类项相似度极高,即使另一类相似度不高,得出的工序卡片最终相似度也较高的情况,所以采用将两类项的相似度相乘,得出最终相似度的方案。

计算公式如下:
(5)
总相似度计算公式3实验及结果分析本次实验使用pyt hon 语言编写了pdf 文字提取代码,提取出收集的2000余张汽车制造领域工序卡片中的文字信息,转化为结构化数据后存储到数据库中,为后续的实验做准备。

咨询相关工艺员后对这2000余张工序卡片进行分类,将相
似工序卡片归为一类,编写pyt hon 程序根据上述方法分别判断
各工序卡片与其余工序卡片的相似度,将得到的结果与之前的
预分类结果进行比较,测试在对不同项赋予不同权重时所得结
果的准确度,以此得到各项的最佳权重。

3.1计算第一类工序项相似度
此类项包括产品名称、零件名称和工序名称,这些项的相似
度能直接代表两工序的相似度,其中工序名称与工序的联系最为紧密,是判断工序相似度最为重要的依据[5],因此该项的相
似
图1不同工序名称占比下最高相似度计算准确度
105--
科学技术创
新
图3
度在第一类工序项相似度中占有最大比重(图1、2)。

通过实验得出,在判断第一类工序项相似度时,各项相似度所占比重为:产品名称7%、零件名称15%、工序名称78%时,得出的结果较优。

在计算相似度时,使用杰卡德相似系数与计算编辑距离相似度相结合的方法,两种相似度计算方法得出的相似度值各占第一类工序项相似度最终结果的50%。

例如有如下两张工序卡片片段。

这两张工序卡片的产品名称与零件名称的杰卡德相似系数与计算编辑距离均为1,工序名称的杰卡德相似系数为2/6=0.33,工序名称的计算编辑距离相似度为(5-3)/5=0.4工序名称最终相似度为(0.33+0.4)/2=0.37,其第一类工序项相似度为1*0.07+1*0.15+0.37*0.78=0.5086。

3.2计算第二类工序项相似度
此类中的项包括设备名称和夹具名称,通过大量实验计算在第一类项取最优的情况下,这两项在占不同比重下相似度计算的准确度,实验情况如图4所示。

实验得出,在判断第二类工序项相似度时,各项相似度所占比重为:设备名称71%、夹具名称29%时,得出的结果较优。

例如有如下两张工序卡片片段(图5)。

图5
这两张工序卡片的设备名称相似度为1,夹具名称相似度为0,其第二类工序项相似度为1*0.71+0*0.29=0.71。

3.3结合两类工序项相似度
分别得到两类项的相似度值后,再将这两个相似度值相乘,最终得到这两张工序卡片的相似度值。

例如结合3.1、3.2得出的两类工序项的结果,工序卡片一、工序卡片二最终相似度为
0.5086*0.71=0.361。

结束语
本文针对工序卡片信息,从工序卡片的各工序项入手,将工序项分为两类,利用文本相似度计算方法计算第一类工序项相似度,针对第二类工序项的特殊性,将第二类工序项按是否相同设置固定的相似度,再根据工序的特点进行结合,最终得出两张工序卡片的相似度值。

实验结果表明,该方法能较为准确的判断两张工序卡片的相似度,且能适用于多个领域的工序卡片。

参考文献
[1]藏润强,孙红光,杨凤芹,冯国忠,尹亮.基于Levenshtein 和TFRSF 的文本相似度计算方法[J].计算机与现代化,2018,4:84-89.
[2]郭浩,许伟,卢凯,唐球.基于CNN 和BiLSTM 的短文本相似度计算方法[J].信息技术与网络安全,2019,6:61-64.
[3]罗年猛,李雄.基于典型工艺的相似工艺路线检索方法[J].机械工程与自动化,2014,5:101-103.
[4]JiaqiYang,YongjunLi,CongjieGao,YinyinZhang.Measuringtheshort textsimilaritybasedonsemanticandsyntacticinformation.2020,07.043:169-180.
[5]石彩霞,李书琴,刘斌.多重检验加权融合的短文本相似度计算方法[J].计算机工程,2020,2:37-44
[6]艾楚涵,姜迪,吴建德.基于主题模型和文本相似度计算的专利推荐研究[J].信息技术,2020,4:65-70.
[7]刘辉.基于强类别特征的文本相似度计算及其性能评估[J].软件工程,2020,10:5-7+4.
[8]卢俊宇,周翔翔.基于词嵌入的短文本扩展分类方法[J].指挥信息系统与技术,2020,4:70-73.
[9]周丽杰,于伟海,郭成.基于词项语义组合的文本相似度计算方法研究[J].计算机工程与应用,2016,19:90-93.
[10]张振豪,过弋,韩美琪,王吉祥.基于关键词相似度的短文本分类方法研究[J].计算机应用研究,2020,1:26-29.
图4第一类工序项最优占比下不同设备名称占比相似度计算准确
度
106--。