会议专题

识别和抽取XML文档中的关系信息及其出现模式

Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据。

关系信息 XML相似度 模式匹配 数据抽取 用户挖掘模式

雷庆 吴扬扬

华侨大学,计算机科学系,泉州,362021

国内会议

第三届全国搜索引擎和网上信息挖掘学术研讨会

北京

中文

1757-1761

2005-09-26(万方平台首次上网日期,不代表论文的发表时间)