标签特征和正文特征融合的SVM博客文本分类算法研究
博客飞速发展,博客文本检索和分类的研究价值日渐凸显。博客文本的内容、风格缺乏规范性,为自动文本分类带来难度。博客作者通常为文章指定一个或多个标签,标签在很大程度上概括了文章涉及的内容,对博客文本分类有重要的作用。本文根据博客文本标签这一特点,提出了两种标签信息和正文信息融合的博客文本分类算法。实验结果表明,标签信息能够有效提高博客文本分类的性能。
博客 标签特征 文本分类 SVM
刘秉权 李博 孙林 王宝勋 刘远超
哈尔滨工业大学智能技术与自然语言处理研究室,哈尔滨 150001
国内会议
黑龙江镜泊湖
中文
675-681
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)