基于Hadoop的并行化命名实体识别技术研究与实现
命名实体识别是自然语言处理的基础领域,是信息抽取、信息检索、机器翻译、问答系统等自然语言处理技术的基础.对于大规模数据,采用单机识别其中的命名实体耗时较长;因此本文针对大规模数据,采用条件随机场算法,基于Hadoop的Map/Reduce框架对数据集进行分割,做并行化处理,实验取得了良好的效果,命名实体识别达到了较高的准确率,并且大大缩短了识别所需要的时间.
命名实体 识别技术 条件随机场算法 Hadoop框架
张佳宝 周斌 吴泉源
国防科学技术大学计算机学院 长沙 410073
国内会议
杭州
中文
126-130
2010-09-17(万方平台首次上网日期,不代表论文的发表时间)