会议专题

基于双语平行语料的分层次命名实体抽取

本文设计实现了一种基于多模型分层次的从双语语料库中抽取命名实体对的方法。首先对命名实体识别,然后分层次抽取命名实体。第一层通过双语识别信息和对齐技术,利用意译模型和音译模型打分得到短命名实体;第二层用规则的方法合并短命名实体生成长命名实体对。实验显示,双语识别信息和对齐技术对于短命名实体的抽取效果很好,针对长命名实体抽取问题的合并规则也能在一定程度上抽取出长命名实体。

文字处理 机器翻译 语言识别 意译模型 双语平行语料

庞薇 徐波

中科院自动化所 数字内容技术研究中心,北京 100080 中科院自动化所 数字内容技术研究中心,北京 100080 中科院自动化所 模式识别国家重点实验室,北京 100080

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

371-377

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)