会议专题

基于领域知识字典的Web页面主题判定方法的研究

  Web页面主题判定是实现Web数据集成的重要前提,是构建企业级垂直搜索引擎的关键技术,因此得到了学术界和工业界的极大关注。提出了一种基于领域知识字典的Web页面主题判定方法,该方法主要针对含有丰富半结构化数据的Web页面,分别采用向量空间模型(VSM)和支持向量机(SVM)来判断Web页面主题是否属于用户的兴趣领域。向量空间模型适用于领域知识变化快、领域知识字典需要经常更新的应用;而支持向量机模型则适用于领域知识变化慢、领域知识字典不需要经常更新的应用。研究了在半人工干预下,领域字典的更新机制,目的是保证领域字典的新鲜性和正确性。最后,通过使用来自于多领域的含有半结构化数据的Web页面对所提方法进行了性能验证,并讨论了领域知识字典对于判定结果的影响。

文本分类 主题判定 垂直搜索 领域字典 数据集成

赵志滨 贾岩峰 鲍玉斌

东北大学信息科学与工程学院,沈阳,110819

国际会议

the 25th Chinese Control and Decision Conference(第25届中国控制与决策会议)

贵阳

英文

3655-3660

2013-05-01(万方平台首次上网日期,不代表论文的发表时间)