基于语句相似度的网页标题抽取方法
目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取,但是这些方法只考虑到了HTML的统计特点,没有考虑标题与正文信息之间的关系。本文提出一种基于相似度的网页标题抽取方法,充分利用了网页标题与正文信息之间的关系,通过计算两两“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。 实验结果表明,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力。
网页标题抽取 相似度 HITS算法 Web信息抽取
李国华 昝红英
郑州大学信息工程学院,河南 郑州 450001
国内会议
武汉
中文
386-392
2010-10-11(万方平台首次上网日期,不代表论文的发表时间)