会议专题

基于伪LCS的中文专利句子相似度计算方法

针对专利文献专业术语相对较多、形式规范、语言严谨的特点,本文提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串(LCS)算法进行改进,并加入了词汇语义信息、词类和术语相相似度等相关信息,使其具有模糊对齐的能力,更适合专利文献中句子相似度的计算.实验结果表明该方法在专利句子相似度计算方面取得了较好效果。

句子相似计算 伪LCS 模糊对齐 术语相似度计算

卢延科 尹宝生 张桂平 苗雪雷 白宇

沈阳航空工业学院 知识工程中心,辽宁 沈阳 110034

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

569-577

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)