会议专题

中文Web文档中小标题的识别方法

Web文档中的小标题出现形式不同于普通文本:普通文本一般有比较规范的组织结构和清晰的小标题标记,通过这些小标题标记可以识别出小标题;而Web文档的结构较为松散,小标题出现的位置和形式都比较自由,部分小标题没有明显的标记符.因此,有必要对它作进一步处理.本文首先综合分析了Web页面特征,然后总结了小标题的两种形式:有标号小标题和无标号小标题,在此基础上,提出了一种适合于Web页面的小标题识别方法.

模式识别 网页信息 标题识别

徐晓丹

国防科技大学计算机学院(长沙);浙江师范大学信息学院智能计算与并行计算研究所(金华)

国内会议

第四届中国Rough集与软计算学术研讨会

舟山

中文

296-297

2004-10-01(万方平台首次上网日期,不代表论文的发表时间)