面向专利文献的中文分词技术的研究

摘要：

针对专利文献的特点，本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记，结合切分文本的上下文信息进行最大概率分词，并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息，有效地解决了专利分词中未登录词难以识别问题。实验结果表明，本文方法在封闭和开放测试下分别取得了较好的结果，对未登录词的识别也有很好的效果。

关键词：中文分词技术专利文献上下文信息

作者: 刘东生尹宝生张桂平徐立军苗雪雷

作者单位: 沈阳航空工业学院自然语言处理研究室,沈阳 110034

会议类型: 国内会议

会议名称: 第五届全国信息检索学术会议CCIR2009

会议地点: 上海

会议语种:中文

页码: 643-650

在线出版日期: 2009-11-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

面向专利文献的中文分词技术的研究