基于双语平行语料的分层次命名实体抽取

摘要：

本文设计实现了一种基于多模型分层次的从双语语料库中抽取命名实体对的方法。首先对命名实体识别，然后分层次抽取命名实体。第一层通过双语识别信息和对齐技术,利用意译模型和音译模型打分得到短命名实体；第二层用规则的方法合并短命名实体生成长命名实体对。实验显示,双语识别信息和对齐技术对于短命名实体的抽取效果很好,针对长命名实体抽取问题的合并规则也能在一定程度上抽取出长命名实体。

关键词：文字处理机器翻译语言识别意译模型双语平行语料

作者: 庞薇徐波

作者单位: 中科院自动化所数字内容技术研究中心,北京 100080 中科院自动化所数字内容技术研究中心,北京 100080 中科院自动化所模式识别国家重点实验室,北京 100080

会议类型: 国内会议

会议名称: 第四届全国学生计算语言学研讨会(SWCL-2008)

会议地点: 太原

会议语种:中文

页码: 371-377

在线出版日期: 2008-07-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于双语平行语料的分层次命名实体抽取