会议专题

R-Grams文本相似度计算中的随机策略研究

R-Grams文本相似度算法是一种可应用于长文本相似度计算的新型算法,通过随机策略,充分利用了短n-Grams的细粒度检测特性和长n-Grams的高效检测特性,具有语言无关、精度和速度易调节等特点.针对该算法中n-Grams的随机抽取这一核心部分,提出了一种位置约束随机策略.通过实验探究了在位置约束下的随机策略对相似度算法的影响,并对结果做了深入分析.实验结果表明:R-Grams文本相似度算法在各种约束随机策略下,基本表现出与无约束随机策略下相似的结果精度,可见该算法具有很强的抗干扰能力.

文本相似度算法 r-样式分布 位置约束 随机策略 抗干扰能力

王贤明 胡智文 谷琼

温州大学 瓯江学院,温州 325035 浙江传媒学院 新媒体学院,杭州 310018 湖北文理学院 数学与计算机科学学院,襄阳 441053

国内会议

2014全国高性能计算学术年会

广州

中文

687-694

2014-11-06(万方平台首次上网日期,不代表论文的发表时间)