基于句子包相似度的文本复制检测研究
对学术论文的复制检测研究进行了概述和分析.为实现语义相同写法不同的文本的复制检测,提出基于句子包相似度的复制检测算法.该算法注重从句子语义的角度计算句子间的相似度,首先把文本切分成句子包,然后定义并计算句子的相似度,再在此基础上计算句子包的相似度,从而得到文本相似度.本文最后分别从全集复制、超集复制、子集复制和移位复制等几个方面对提出的算法进行了测试和分析,实验结果表明该算法是可行的、高效的.
text copy detection sentence bag similarity of sentence text representation
王宇 王森 何维
大连理工大学 管理学院,辽宁大连 116024
国内会议
武汉
中文
758-762
2009-10-23(万方平台首次上网日期,不代表论文的发表时间)