基于语句相似度的网页标题抽取方法

摘要：

目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取，但是这些方法只考虑到了HTML的统计特点，没有考虑标题与正文信息之间的关系。本文提出一种基于相似度的网页标题抽取方法，充分利用了网页标题与正文信息之间的关系，通过计算两两“单位”之间的相似度和对应的权值，并引入HITS算法模型对权值进行调整，根据特定的选取方法抽取出真实标题。实验结果表明，该方法不仅对“非标准网页”的抽取达到满意的效果，而且对“标准网页”具有较高的泛化能力。

关键词：网页标题抽取相似度 HITS算法 Web信息抽取

作者: 李国华昝红英

作者单位: 郑州大学信息工程学院,河南郑州 450001

会议类型: 国内会议

会议名称: 第五届全国青年计算语言学研讨会(YWCL 2010)

会议地点: 武汉

会议语种:中文

页码: 386-392

在线出版日期: 2010-10-11（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于语句相似度的网页标题抽取方法