基于大数据下MapReduce模型的汉英机构命名实体对识别探究
基于MapReduce框架,本文提出从海量汉英平行语料库中抽取汉英对应的命名实体对的方法.首先基于斯坦福大学的分词、词性标注和句法分析等工具完成汉语和英语的句法分析,然后根据人工内省制定汉英双语命名实体抽取的规则集,提取出中英文候选命名实体,基于MapReduce框架计算出它们互为对应中英文命名实体的概率,最后通过设定的阙值筛选出中英文命名实体对.
海量汉英平行语料库 命名实体对识别 编程模型 大数据环境
王东波 朱丹浩 沈思
南京农业大学信息科学技术学院,南京210095 江苏警官学院,南京210031 南京大学信息管理学院,南京 210093
国内会议
吉林延吉
中文
40-46
2013-09-01(万方平台首次上网日期,不代表论文的发表时间)