会议专题

一种基于规则不依赖于分词的中文数量短语的识别

本文提出了一种新的基于规则的不依赖于分词的数量短语识别方法来实现中文数量短语的识别。首先对中文数量短语识别技术的现状进行了简要分析和概述,明确了中文数量短语识别的任务,然后,基于前人的工作提出了基于规则的方法及不作分词和词法分析,而根据数量短语的特征库直接进行提取和识别的方法。其基本思路是:通过识别器中的搜索器对句子进行搜索,得到一个具有特征的最大字符串,再通过内建的规则处理器对最大字符串进行中文数量短语构成模式的识别,在识别的过程中,使用数量短语特征库填充11类构成模式,并自动对识别出的数量短语进行类XML标注,由于特征库和构成模式可以方便地添加进系统,从而能加强系统的识别效果。我们在人民日报1998年1月份的未标注语料上进行了中文数量短语的识别实验,取得了召回率98.7%,精度90.9%的较好效果,由于采用了不分词的技术,与采用分词技术的识别过程相比,显著地提高了处理的效率。

中文信息处理 模式识别 中文数量短语 HNC理论 规则处理器 不分词技术

熊文 张玲

北京邮电大学,信息工程学院,北京,100083 北京大正语言知识处理科技有限公司,北京,100081

国内会议

第七届中文信息处理国际会议

武汉

中文

36-40

2007-10-13(万方平台首次上网日期,不代表论文的发表时间)