基于伪LCS的中文专利句子相似度计算方法

摘要：

针对专利文献专业术语相对较多、形式规范、语言严谨的特点，本文提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串(LCS)算法进行改进，并加入了词汇语义信息、词类和术语相相似度等相关信息，使其具有模糊对齐的能力，更适合专利文献中句子相似度的计算.实验结果表明该方法在专利句子相似度计算方面取得了较好效果。

关键词：句子相似计算伪LCS 模糊对齐术语相似度计算

作者: 卢延科尹宝生张桂平苗雪雷白宇

作者单位: 沈阳航空工业学院知识工程中心,辽宁沈阳 110034

会议类型: 国内会议

会议名称: 第五届全国信息检索学术会议CCIR2009

会议地点: 上海

会议语种:中文

页码: 569-577

在线出版日期: 2009-11-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于伪LCS的中文专利句子相似度计算方法