中文网页形式自动分类
传统的网页分类大都基于内容,这种方式采用字词特征项匹配的方法,没有考虑网页的结构信息.为了充分挖掘网页的结构特征,本文提出了网页按形式分类的机制.以往关于形式分类的研究大都基于普通文本,但是网页文本不同于普通文本,它具有URL和HTML标签等对网页结构有较大影响的特征.本文从URL和网页的HTML标签中提取特征,并借用了普通文本形式分类中使用的部分特征项作为网页形式分类的特征集合,最后使用SVM分类器进行分类训练测试.
自动形式分类 特征提取 HTML标签 中文网页 网页分类
董静 林鸿飞 杨志豪
大连理工大学计算科学与工程系,大连,116024
国内会议
沈阳
中文
353-357
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)