会议专题

面向专利文献的中文分词技术的研究

针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,本文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。

中文分词技术 专利文献 上下文信息

刘东生 尹宝生 张桂平 徐立军 苗雪雷

沈阳航空工业学院 自然语言处理研究室,沈阳 110034

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

643-650

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)