高效的实体匹配结果消解算法
实体同一性检测问题,即实体识别问题,是数据质量领域一个比较热门的研究问题,可利用运行在两个实体上的实体匹配算法求解实体识别问题.针对实体匹配算法的输出结果中可能有“歧义”的现象,利用额外的知识来消去,形式化定义了实体匹配结果消解问题.由一个基于线性规划的近似算法Round证明了NP的完全问题,它的近似比是O(logn),针对特殊情况,提出了一个随机近似算法KwikResolution.考虑到两个算法各自的不足,给出了4个直观的启发式算法,实验结果验证了理论分析的结果,并且证明了给出的启发式算法是有效的.
数据库 信息提取 实体匹配结果 消解算法 质量控制
刘显敏 李建中
哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001
国内会议
哈尔滨
中文
239-247
2013-08-16(万方平台首次上网日期,不代表论文的发表时间)