基于句子相似度的论文抄袭检测模型研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
引言
剽窃他人研究成果, 篡改或伪造数据并继续发表, 给学术
直接支配成分来表示, 分析结果可看作一棵简化了的依存树, 以此计算依存树之间的相似度。该方法对句子各成分间依存 关系分析的准确率不高, 导致实际应用性不强。编辑距离方 法[5]以普通编辑距离算法为基础, 用词语取代单个的汉字或字 符作为基本的编辑单元参与运算, 加入词语的语义相似信息 确定词语之间的替换代价。该方法没有考虑句子中不同词语 对整体文档贡献的不一致, 也未能兼顾归一化问题。上述算 法适用于词条空间维数小且依赖程度较高的样本, 侧重理解 句子的语义信息, 计算代价较高。 本文提出了一种新的论文抄袭检测模型, 首先通过局部 词频指纹算法 (Local Word-Frequency Fingerprint, LWFF) 对 大规模文档进行快速检测, 找出疑似抄袭文档。然后利用最 长有序公共子序列算法 (Longest Sorted Common Subsequence, LSCS) 对疑似抄袭文档内容进行精确检测, 标注抄袭细节。该 模型改进了前面几种检测方法结构不合理、 精度不高等问题, 在标准中文数据集 SOGOU-T 上进行的实验表明, 该算法具有 较高的准确率和召回率。
[4] [1]
基金项目: 国家自然科学基金 (the National Natural Science Foundation of China under Grant No.60603023) ; 辽宁省教育厅重点实验室项目 (No.LS2010180) 。 作者简介: 冷强奎 (1981—) , 男, 硕士研究生, 主要研究领域为机器学习; 秦玉平 (1965—) , 男, 博士, 教授; 王春立 (1972—) , 女, 博士, 教授。 E-mail: qkleng@ 收稿日期: 2010-04-29; 修回日期: 2010-08-09
200
2011, 47 (24)
Computer Engineering and Applications 计算机工程与应用 个最长公共子序列及 X 和 Y n - 1 的一个最长公共子序列, 这两 个公共子序列中较长者即为 X 和 Y 的一个最长公共子序列。 由于在所考虑的子问题空间中, 总共有 θ(m ´ n) 个不同的子问 题, 算法的时间复杂度要达到 O(mn) 。 用动态规划算法自底向上计算最优值能提高算法的效 率, 将待求解的问题分解成若干个相互联系的子问题, 先求解 子问题, 然后从 m ´ n 个子问题的解得到原问题的解。对于重 复出现的子问题, 只在首次出现时对它求解, 并将结果保存, 当再次遇到时直接引用结果, 利用动态规划算法可将时间复 杂度减少至 O(m ´ n) 。 通过计算两个句子的最长公共子序列, 可以获取语句间的 重复信息, 但动态规划算法计算代价较高, 不适合用于大规模 文档检测, 为此本文提出了一种有序的最长公共子序列算法。
档。根据最长有序公共子序列算法计算句子间的相似度, 并标注抄袭细节, 给出抄袭依据。在标准中文数据集 SOGOU-T 上进行 的实验表明, 该模型具有较强的局部信息挖掘能力, 在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。 关键词: 句子相似度; 抄袭检测; 局部词频; 最长有序公共子序列 DOI: 10.3778/j.issn.1002-8331.2011.24.056 文章编号: 1002-8331 (2011) 24-0199-03 文献标识码: A 中图分类号: TP181
sim( A B) =
定义 1 经过 LWFF 算法检测属于抄袭的文档称为目标文 档 (Destination Text, DT) 。作为检测依据的文档称为源文档 (Source Text, ST) 。 设 DT 中任一语句块 X =< x1 x 2 x m > 和 ST 中任一语 句块 Y =< y1 y 2 y n > 已具有相同次序, 其中 xi (i = 1 2 m) 和 y j ( j = 1 2 n) 分别为语句块 X 和 Y 中的有效词元素, 并 已按关键词词性 ID[9]排序。接下来计算 X 和 Y 的最长公共子 序列。此问题归结为串匹配问题, 一个典型的计算方法是 Brute-Force 方法, 从目标串 S = "s0 s1s n - 1" 的第一个字符开始 和模式串 T = "t0 t1t m - 1" 中的第一个字符比较, 若相等, 则继续 逐个比较后续字符, 否则, 从目标串 S 的第 2 个字符开始重新 与模式串 T 的第一个字符进行比较ห้องสมุดไป่ตู้ 依次类推, 若从模式串 S 的第 i 个字符开始, 每个字符依次和目标串 T 中的对应字符相 等, 则匹配成功, 否则失败。由于已对语句块元素进行排序, 所以不存在指针回溯问题, 使该算法效率大大提高, 时间复杂 度可以达到 O(m + n) 。
3.3
算法步骤
3 基于最长有序公共子序列的句子相似度检测算法 3.1 最长公共子序列
最长公共子序列[7]是计算文档句子相似度的有效手段, 解 最长公共子序列问题的常规方法是穷举搜索法, 但该方法需 要指数时间。最长公共子序列问题存在最优子结构性质[8], 设 序列 X =< x1 x 2 x m > 和 Y =< y1 y 2 y n > 的一个最长公共 子序列 Z =< z1 z 2 z k > , 则: 若 xm = yn , 则 z k = x m = y n 且 z k - 1 是 X m - 1 和 Y n - 1 的最长公 共子序列; 若 xm ¹ yn 且 zk ¹ xm , 则 Z 是 X m - 1 和 Y 的最长公共子序列; 若 xm ¹ yn 且 zk ¹ yn , 则 Z 是 X 和 Y n - 1 的最长公共子序列。
研究带来严重危害。建立一种快速、 准确的论文抄袭检测模 型具有现实意义, 论文抄袭检测算法已成为当前研究的热 点。与英文学术论文不同, 中文学术论文语法形式灵活多变, 语用歧义性大, 且词与词之间无明显分隔, 所以检测难度较 大。目前针对中文的检测方法主要包括篇章结构相似度方 法、 段落相似度方法和句子相似度方法 。其中句子相似度方 法结构划分合理, 检测精度较高, 较其他方法有明显优势。 句子相似度的计算方法主要有词频统计方法、 语义词典 方法、 依存树方法和编辑距离方法。词频统计方法[2]采用基于 向量空间模型的 TF-IDF 方法, 将句子看作由独立词条组成的 向量空间, 用点积法和余弦法计算相似度。该方法丢失文档 结构信息, 且检测速度较低。语义词典方法[3]主要利用语义资 源, 通过计算句中词语相似度来计算句子的相似度。该方法 对于一些存在对义或反义的词语识别率较低, 不利于词语的 极性判断。依存树方法 的句法结构用句子谓语中心词及其
中出现的频率,N 为文档中句子的总数,n j 为 k j 出现的次 数。根据公式 (2) 计算每个向量的指纹 fpi 。
Hash(Si n) = (2n w1 + 2n - 1w 2 + + 20 w n)mod p
3.2
有序的最长公共子序列匹配算法
(2)
其中, n 为句子 Si 中非重复关键词的个数, p 为一个 32 位或 64 位的大质数。选取全指纹, 将待检测文档与样本库中每一文 档进行检测。利用公式 (3) 计算文档相似度[6]。
i=1 N
w j 为句子 Si 中第 j 个非重复关键词的权重, 根据公式 (1) 计算
权重。
tf j (S ) ´ log( N/n j)
w j (S ) = Enc(k j)
(tf j (S ) ´ log( N/n j))2 å j
(1)
Enc(k j) 为关键字词 k j 的编码, tf j (S ) 为关键词 k j 在句子 其中,
| FP( A x) FP(B y) | | FP( A x) FP(B y) |
(3)
同时, 根据公式 (4) 检测文本包含关系, 确定抄袭范围。 |FP( A x) FP(B y)| con( A B) = (4) |FP( A x)| 其中,FP( A x) 和 FP(B x) 为文档 A、 B 生成的指纹集合。利 用 d ( A B) = 1 - sim( A B) 计算文档之间的相似距离, 根据相似 距离 d ( A B) 确定文档抄袭程度。 LWFF 算法能够从大规模样本中快速检测出疑似抄袭文 档, 但并未对局部语句相似作进一步研究, 没有给出抄袭细 节, 而对句子相似度的检测能够解决这个问题。由 LWFF 算法 确定被检测目标文档属于抄袭后, 利用最长有序公共子序列 算法来计算句子相似度, 标注抄袭细节。
在标准中a检测相似且实际也相似的文档数文数据集sogout上的检测结果验证了该模型的有效性定程度上优于词频统计方法和语义词典方法但有些问题还b检测相似但实际不相似的文档数有待进一步研究如构建句子语义相似度快速检测模型以及c实际相似但检测不相似的文档数求解某一语句唯一最长有序公共子序列等
Computer Engineering and Applications 计算机工程与应用
2
局部词频指纹算法
局部词频指纹算法的思想是将句子看成文档的基本构成
元素, 对其进行有效关键词提取, 并排序重构, 根据编码和词 频联合方式获取句子指纹, 以此计算文本间相似度。以句子 为单位生成向量空间模型, 将一篇文档看作若干句子的集合 D,
D = Si 。其中,N 为句子个数, Si = (w1 w 2 w j w n) ,
2011, 47 (24)
199
基于句子相似度的论文抄袭检测模型研究
冷强奎 1, 秦玉平 1, 王春立 2 1 LENG Qiangkui , QIN Yuping1, WANG Chunli2
1.渤海大学 信息科学与工程学院, 辽宁 锦州 121000 2.大连海事大学 信息科学技术学院, 辽宁 大连 116026 1.College of Information Science and Engineering, Bohai University, Jinzhou, Liaoning 121000, China 2.College of Information Science and Technology, Dalian Maritime University, Dalian, Liaoning 116026, China LENG Qiangkui, QIN Yuping, WANG Chunli.Study on model for plagiarism-detection of scientific papers based on sentence puter Engineering and Applications, 2011, 47 (24) : 199-201. Abstract:A new model for plagiarism-identification of scientific papers based on sentence similarity is rge-scale texts are quickly detected with Local Word-Frequency Fingerprint (LWFF) to find suspected plagiarism ones.Sentence similarity is computed according to the Longest Sorted Common Subsequence (LSCS) between source texts and destination texts. The algorithm can mark plagiarism details, and show evidence.The identification experiments on the SOGOU-T database are done with this model.The results show it has higher information mining capacity, and partly overcomes the shortage of lower precision on existing plagiarism-identification of scientific papers. Key words:sentence similarity; plagiarism-detection; local word-frequency; Longest Sorted Common Subsequence (LSCS) 摘 要: 提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测, 找出疑似抄袭文