中文网页形式自动分类

摘要：

传统的网页分类大都基于内容,这种方式采用字词特征项匹配的方法,没有考虑网页的结构信息.为了充分挖掘网页的结构特征,本文提出了网页按形式分类的机制.以往关于形式分类的研究大都基于普通文本,但是网页文本不同于普通文本,它具有URL和HTML标签等对网页结构有较大影响的特征.本文从URL和网页的HTML标签中提取特征,并借用了普通文本形式分类中使用的部分特征项作为网页形式分类的特征集合,最后使用SVM分类器进行分类训练测试.

关键词：自动形式分类特征提取 HTML标签中文网页网页分类

作者: 董静林鸿飞杨志豪

作者单位: 大连理工大学计算科学与工程系,大连,116024

会议类型: 国内会议

会议名称: 第三届学术计算语言学研讨会

会议地点: 沈阳

会议语种:中文

页码: 353-357

在线出版日期: 2006-08-15（万方平台首次上网日期，不代表论文的发表时间）

会议专题

中文网页形式自动分类