会议专题

最大熵和规则相结合的藏文句子边界识别方法

  句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。

藏文信息处理 最大熵模型 句子边界识别 特征选择

李响 才藏太 姜文斌 吕雅娟 刘群

中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京 100190 青海师范大学计算机学院,青海西宁 810008

国内会议

第十三届中国少数民族语言文字信息处理学术研讨会

呼和浩特

中文

39-44

2011-07-29(万方平台首次上网日期,不代表论文的发表时间)