会议专题

基于键规则的XML实体抽取方法

XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-hased entity extraction,KEE)方法.KEE方法利用查询松弛技术,自动地生成抽取实体的候选查询集合,基于相似性测度,从候选查询中选取适用于抽取实体的查询集合.作为KEE方法的一个具体实现,SharingEE算法利用标准化的查询松弛技术,减少了候选查询中的冗余,利用基于自动机的查询处理技术,在多个候选查询之间共享中间结果,从而减少计算开销.在真实和模拟数据上运行的实验验证了算法的效率和有效性.实验结果表明,KEE方法可以很好地解决实体抽取问题,并可以扩展到大规模数据上.

数据查询 可扩展标记语言数据 实体抽取法 键规则

刘显敏 李建中

哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001

国内会议

第30届中国数据库学术会议

哈尔滨

中文

64-75

2013-08-16(万方平台首次上网日期,不代表论文的发表时间)