论文相似度研究背景及现状
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1研究背景及意义
近些年来论文抄袭成为困扰学术界的严重问题之一,抄袭票窃之风在今天的学术界愈演愈烈几乎是不争的事实。“抄袭是指将他人作品或者作品的片段窃为己有。”更准确地说,抄袭是指将他人作品或者作品的片段窃为己有并公开发表。论文中可以适当地引用他人作品的部分内容,当然要指明出处。但如果引用不合理,就涉嫌抄袭。《著作权法实施条例》第二十七条第二款规定“所引用部分不能构成引用人作品的主要部分,,,我国文化部1985年曾对合理引用量作了规定。该规定指出,引用非诗词类作品不得超过2500字或被引用作品的十分之一;多次引用同一部长篇非诗词类作品,总字数不得超过1万字;引用诗词类作品不得超过40行或全诗的四分之一,但古体诗词例外;凡引用一人或多人的作品,所引用的总量不得超过本人创作作品总量的十分之一。但专题评论和古体诗词除外。目前,对于英文论文的相似度分析比较成熟,主要采用数字指纹和字符串匹配等技术,而对于中文论文的相似度分析还不太成熟,大多数算法存在识别率低、效率不高等问题。
论文相似度分析不仅只是单纯用来进行学术不端行为的检测,还具有以下两种功能。
第一:文献保护。可准确发现您的重要文献是否被他人非法使用,或者保护个人或单位的重要文件资料被他人不恰当的描述,还可以预防个人或单位的保密信息和资源在其他文献中被不恰当的公开。
第二:文献比对。可实现一个文献与其他一个或多个文献的比对,例如出版社可能希望避免潜在的版权侵犯行为;律师在知识产权案件中可使用文本复制检测技术来快速确定两篇或多篇文献中的文字复制情况。
2研究现状
自然语言文档复制检测技术最早出现在1993年,ARIZONA大学的Manber提出了Sill21工具,用于在大规模文件系统中寻找内容相似的文件。Sif=工具提出了“近似指纹(approximate fingerprints)'’的概念,就是利用基于字符串匹配的方法来度量文件之间的相似性。此后,很多文本复制检测系统都采用了这个思路,如COPS,KOALA, shingling, I-Match, MDR, YAP等。1995年,斯坦福大学的Brin和Garcia-Molina等人首次提出了文本复制检测机制COPS及其相应的算法。随后,Shivakumar等人又提出了SCAM f}tanford copyanalysis method)原型1改进了COPS系统,用于发现知识产权冲突,SCAM借鉴了信息检索技术中的向量空间模型,使用基于词频统计的方法来度量文本相似性。后来Garcia-Molina和Shivakumar等人还在SCAM的基础上提出dSCAM模型,把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法。同期又出现了KOALA系统,与之类似的还有Broder等人提出来的“shingling”方法。到了2000年,又出现了用后缀树来搜寻字符串之间的最大子串的MDR原型。西安交通大学宋擒豹等人提出了CDSDG(copying detection system of digital goods)系统,这是为了解决数字商品非法复制和扩散问题而开发的一个基于注册的复制监测原型系统[3]。除此之外,还有很多文本比较工具和软件,都是针对两篇文档的内容进行比较的。例如:WCopyfind和Beyoud Com-pare等。2007年,金博等人还从论文的篇章结构相似度出发提出了基于篇章结构相似度的复制检测算法。它是在学术论文理解的基础上针对学术论文的特有结构,对学术论文进行篇章结构分析,再通过数字指纹和词频统计等方法计算出学术论文之间的相似度,从而找出抄袭的现象,但此算法只是针对书写格式规范的学术论文抄袭情况的判定。