基于Hadoop的并行化命名实体识别技术研究与实现

摘要：

命名实体识别是自然语言处理的基础领域,是信息抽取、信息检索、机器翻译、问答系统等自然语言处理技术的基础.对于大规模数据,采用单机识别其中的命名实体耗时较长;因此本文针对大规模数据,采用条件随机场算法,基于Hadoop的Map/Reduce框架对数据集进行分割,做并行化处理,实验取得了良好的效果,命名实体识别达到了较高的准确率,并且大大缩短了识别所需要的时间.

关键词：命名实体识别技术条件随机场算法 Hadoop框架

作者: 张佳宝周斌吴泉源

作者单位: 国防科学技术大学计算机学院长沙 410073

会议类型: 国内会议

会议名称: 第25次全国计算机安全学术交流会

会议地点: 杭州

会议语种:中文

页码: 126-130

在线出版日期: 2010-09-17（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于Hadoop的并行化命名实体识别技术研究与实现