会议专题

基于Biased SVMs的中文Web过滤系统

通过对汉语表达习惯、网页结构特性和用户一般浏览模式的分析,归纳出用户兴趣描述包括关键查询词和查询关联度两部分信息,并把过滤任务根据查询关联度不同划分为相关过滤、相似过滤、相近过滤3个层次,提出了可根据训练向量分布特性和用户调节参数自调整查询关联度的BiasedSVMs改进算法.基于BiasedSVMs设计并实现了一个中文Web过滤系统,该系统采用URL分析、主题句分析和网页正文分析相结合的体系结构设计,包括基于二叉搜索树的主题特征搜索树模板(TopicProfile)和基于BiasedSVMs的正文向量超平面模板(ContentProfile),从而把搜索树查找速度快和改进算法泛化能力强的特性互补地结合起来.系统在开放测试环境下过滤精度为89.4﹪,处理速度为3.11Mb/s,收到良好的过滤效果。

中文网页过滤 查询关联度 有偏支撑向量机 二叉搜索树 浏览模式

杜阿宁 方滨兴

哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨,150001

国内会议

2005第一届中国分类技术与应用研讨会(CSCA)

北京

中文

403-408

2005-09-23(万方平台首次上网日期,不代表论文的发表时间)