识别和抽取XML文档中的关系信息及其出现模式

摘要：

Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据。

关键词：关系信息 XML相似度模式匹配数据抽取用户挖掘模式

作者: 雷庆吴扬扬

作者单位: 华侨大学,计算机科学系,泉州,362021

会议类型: 国内会议

会议名称: 第三届全国搜索引擎和网上信息挖掘学术研讨会

会议地点: 北京

会议语种:中文

页码: 1757-1761

在线出版日期: 2005-09-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

识别和抽取XML文档中的关系信息及其出现模式