OntoWord:一种新的Web页面语义标注方法
对Web数据添加语义标注是实现语义Web必须解决的关键问题。现有对非结构化文档进行标注的方法一般都需要大量的数据作为训练集,并忽略了领域背景知识的作用。提出了一种新的Web数据标注方法:OntoWord,利用语言学模式和领域本体所包含的语义信息,以及WordNet提供的词汇间语义关系,进行概念实例的判定.对语言学模式进行弱匹配的策略增强了概念实例的识别能力.同时采用构造参考集的方法提高识别概念实例的准确性和完整性。并以此为基础,提出根据本体属性信息构造属性模式三元组,结合页面布局特征,对属性实例进行判定.实验结果证明了该方法的有效性。
语义Web 语义标注 本体 WordNet 弱匹配 构造参考集
袁柳 李战怀 陈世亮
西北工业大学计算机学院 西安 710072
国内会议
桂林
中文
290-296
2008-10-24(万方平台首次上网日期,不代表论文的发表时间)