中文Web文档中小标题的识别方法
Web文档中的小标题出现形式不同于普通文本:普通文本一般有比较规范的组织结构和清晰的小标题标记,通过这些小标题标记可以识别出小标题;而Web文档的结构较为松散,小标题出现的位置和形式都比较自由,部分小标题没有明显的标记符.因此,有必要对它作进一步处理.本文首先综合分析了Web页面特征,然后总结了小标题的两种形式:有标号小标题和无标号小标题,在此基础上,提出了一种适合于Web页面的小标题识别方法.
模式识别 网页信息 标题识别
徐晓丹
国防科技大学计算机学院(长沙);浙江师范大学信息学院智能计算与并行计算研究所(金华)
国内会议
舟山
中文
296-297
2004-10-01(万方平台首次上网日期,不代表论文的发表时间)