会议专题

大数据下利用块依赖的并行实体解析算法

实体解析在数据库管理、信息检索中均有广泛应用,大数据时代的到来使得实体解析在海量数据的处理上面临新的挑战.为适应海量数据的实体解析工作,提出基于块依赖的并行实体解析方法,该方法在MapReduce编程框架下分三阶段实现:首先,依靠分块技术初步减少计算量;其次,通过基于块依赖的数据筛选策略,挑选分块中与所在块的块依赖度较低的实体与其他块中实体匹配,不仅保证解析结果的正确性,且在一定程度上控制了计算量;最后,通过设定跨度距离来控制解析数量,进一步提高时间效率.采用真实数据集在Hadoop上对该方法进行了评估,实验结果表明该方法在保证解析质量的基础上具有良好的时效性.

数据库 数据处理 实体解析 并行算法

王宁 黄敏

北京交通大学计算机与信息技术学院 北京100044

国内会议

第二届CCF大数据学术会议

北京

中文

1-11

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)