会议专题

基于属性权重的实体解析技术

实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程.高效而准确地将指向同一实体的记录识别出来一直是研究人员不懈追求的目标.在基于规则的匹配算法中,大多数算法是将所有的属性都作为匹配属性进行计算,并且各个属性的权重都是一样的,然而这样不能充分体现关键属性的重要性.主要针对关系数据库数据源中实体解析准确性的问题,采用信息增益的方法和概率统计的方法计算数据属性的权重,用来代表该属性在记录中的重要性,达到提高实体解析准确度的目的.并且在此基础上采用top-k算法,选择出最佳分类属性集合,减少匹配属性的个数,从而加快了实体解析的速度.

关系数据库 实体解析算法 优化设计 质量控制

甄灵敏 杨晓春 王斌 Ahmed A Hussein

东北大学信息科学与工程学院 沈阳 110819

国内会议

第30届中国数据库学术会议

哈尔滨

中文

281-289

2013-08-16(万方平台首次上网日期,不代表论文的发表时间)