重复串特征提取算法在不良信息检测中的应用
根据同一类文档的主题相关性,利用文档实例集中频繁出现的一组重复子串作为该类文档的特征描述,设计了基于重复串的特征提取算法。该算法避免了分词处理。实验表明,能够降低特征维数,有效提高不良信息检测的效率。
内容安全 文本分类 特征提取 重复串
黄旭 朱艳琴 罗喜召
苏州大学计算机科学与技术学院,江苏 苏州 215006
国内会议
苏州
中文
270-275
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)
内容安全 文本分类 特征提取 重复串
黄旭 朱艳琴 罗喜召
苏州大学计算机科学与技术学院,江苏 苏州 215006
国内会议
苏州
中文
270-275
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)