垃圾信息中变体词语的特征提取算法研究
垃圾短信具有长度短、文字变体多、表达含义隐晦等特点.采用传统的分词方法无法提取变体词语,并不能获得很好的效果.设计一种词语关联最小化的分词方法,可以自动学习垃圾短信在不同类别下的词语变体特征,特定类别使用特定的分词方案,使学习特征更符合朴素贝叶斯分类器的条件独立性假设,从而达到更好的分类效果.
垃圾短信 变体词语 特征提取算法 词语关联最小化 学习特征
杜刚 朱艳云 张晨 杜雪涛
中国移动通信集团设计院有限公司
国内会议
西安
中文
362-365
2016-09-01(万方平台首次上网日期,不代表论文的发表时间)