会议专题

基于树编辑距离的页面语义区域识别

虽然网页设计者一般将相关内容放在同一页面,但是网页通常包含如广告、导航栏、版权信息等与页面主题关系不大的信息,同时也可能包含多个主题.如果将整张网页作为最小不可分割的基本信息实体进行处理,会受到较多干扰;如果能对页面进行语义分割,识别出相关语义区域进行处理,可以提高网页信息获取的精度和效率.本文研究树编辑距离,Web页面语义区域划分和基于树编辑距离的页面语义区域识别。

树编辑距离 语义分割 页面语义识别 网页区域划分算法 Web页面

王春龙 瞿有利

北京交通大学计算机与信息技术学院,北京,100044

国内会议

第六届中国Rough集与软计算学术研讨会(CRSSC”2006)

浙江金华

中文

152-154,189

2006-10-30(万方平台首次上网日期,不代表论文的发表时间)