会议专题

基于大数据下MapReduce模型的汉英机构命名实体对识别探究

基于MapReduce框架,本文提出从海量汉英平行语料库中抽取汉英对应的命名实体对的方法.首先基于斯坦福大学的分词、词性标注和句法分析等工具完成汉语和英语的句法分析,然后根据人工内省制定汉英双语命名实体抽取的规则集,提取出中英文候选命名实体,基于MapReduce框架计算出它们互为对应中英文命名实体的概率,最后通过设定的阙值筛选出中英文命名实体对.

海量汉英平行语料库 命名实体对识别 编程模型 大数据环境

王东波 朱丹浩 沈思

南京农业大学信息科学技术学院,南京210095 江苏警官学院,南京210031 南京大学信息管理学院,南京 210093

国内会议

第二十七届全国计算机信息管理学术研讨会

吉林延吉

中文

40-46

2013-09-01(万方平台首次上网日期,不代表论文的发表时间)