一种基于规则不依赖于分词的中文数量短语的识别

摘要：

本文提出了一种新的基于规则的不依赖于分词的数量短语识别方法来实现中文数量短语的识别。首先对中文数量短语识别技术的现状进行了简要分析和概述,明确了中文数量短语识别的任务,然后,基于前人的工作提出了基于规则的方法及不作分词和词法分析,而根据数量短语的特征库直接进行提取和识别的方法。其基本思路是:通过识别器中的搜索器对句子进行搜索,得到一个具有特征的最大字符串,再通过内建的规则处理器对最大字符串进行中文数量短语构成模式的识别,在识别的过程中,使用数量短语特征库填充11类构成模式,并自动对识别出的数量短语进行类XML标注,由于特征库和构成模式可以方便地添加进系统,从而能加强系统的识别效果。我们在人民日报1998年1月份的未标注语料上进行了中文数量短语的识别实验,取得了召回率98.7％,精度90.9％的较好效果,由于采用了不分词的技术,与采用分词技术的识别过程相比,显著地提高了处理的效率。

关键词：中文信息处理模式识别中文数量短语 HNC理论规则处理器不分词技术

作者: 熊文张玲

作者单位: 北京邮电大学,信息工程学院,北京,100083 北京大正语言知识处理科技有限公司,北京,100081

会议类型: 国内会议

会议名称: 第七届中文信息处理国际会议

会议地点: 武汉

会议语种:中文

页码: 36-40

在线出版日期: 2007-10-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于规则不依赖于分词的中文数量短语的识别