PELF:基于并行机群的大数据实体识别算法
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数椐实体识别算法,此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高教地对大数据进行实体识别理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别.
大数据 实体识别算法 优化设计 精度控制
李明达 王宏志 张佳程 李建中 高宏
哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001
国内会议
哈尔滨
中文
211-220
2013-08-16(万方平台首次上网日期,不代表论文的发表时间)