会议专题

基于Hadoop的并行化命名实体识别技术研究与实现

命名实体识别是自然语言处理的基础领域,是信息抽取、信息检索、机器翻译、问答系统等自然语言处理技术的基础.对于大规模数据,采用单机识别其中的命名实体耗时较长;因此本文针对大规模数据,采用条件随机场算法,基于Hadoop的Map/Reduce框架对数据集进行分割,做并行化处理,实验取得了良好的效果,命名实体识别达到了较高的准确率,并且大大缩短了识别所需要的时间.

命名实体 识别技术 条件随机场算法 Hadoop框架

张佳宝 周斌 吴泉源

国防科学技术大学计算机学院 长沙 410073

国内会议

第25次全国计算机安全学术交流会

杭州

中文

126-130

2010-09-17(万方平台首次上网日期,不代表论文的发表时间)