会议专题

数据集上基于Union-Find的传递闭包研究

探讨一种通过相关性和传递性对数据集进行分组的有效途径.利用分块思想,并在充分考虑相似重复记录分布的多样性,以及相似重复具有传递性的基础上,设计基于Union-Find的传递闭包算法,以综合多趟计算的结果,实现在数据集上分组.算法能有效地在数据集中计算出满足需求的分组,从而获得较完整的相似重复记录子集.没有对直接影响分组质量、包含错误和数据变体的属性值进行详细分析.提出的方法有助于解决实体解析中部分相似重复记录漏配的问题,且不受领域限制、扩展性较好.

数据集 相似重复记录子集 传递闭包算法 分块思想

高广尚

中国科学院文献情报中心,北京100190;中国科学院大学,北京100190

国内会议

2015年全国情报学博士生学术论坛

北京

中文

406-420

2015-09-19(万方平台首次上网日期,不代表论文的发表时间)