会议专题

基于概率模型和网络模式的多数据源冲突消解

冲突消解俨然成为数据集成中非常重要的过程,如何高效地从冲突描述中发现真值具有重要的研究意义.随着原始数据中混乱描述集的比例越来越大,现有的方法准确率也逐渐降低.针对这一问题,提出了一种基于信息熵的数据划分方法,将原始数据划分成常规数据集和混乱数据集.通过基于概率模型的方法对常规数据集进行消解,并且充分考虑数据源之间存在的依赖关系,消除数据拷贝所带来的影响.而针对混乱数据集,首次提出一种基于网络的消解方法,通过Google API获取相应文本信息,从中挖掘出属性间的模式,并通过最优模糊匹配提取出有效的信息来消除冲突.在真实数据集上的实验充分证明了算法的高效性.

数据集 冲突消解 概率模型 网络模式

王玉龙 高宏 王丽萍 王宏志

哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001 中国地质大学地球物理与空间信息学院 武汉430074

国内会议

第31届中国数据库学术会议

太原

中文

32-39

2014-09-19(万方平台首次上网日期,不代表论文的发表时间)