会议专题

垃圾信息中变体词语的特征提取算法研究

垃圾短信具有长度短、文字变体多、表达含义隐晦等特点.采用传统的分词方法无法提取变体词语,并不能获得很好的效果.设计一种词语关联最小化的分词方法,可以自动学习垃圾短信在不同类别下的词语变体特征,特定类别使用特定的分词方案,使学习特征更符合朴素贝叶斯分类器的条件独立性假设,从而达到更好的分类效果.

垃圾短信 变体词语 特征提取算法 词语关联最小化 学习特征

杜刚 朱艳云 张晨 杜雪涛

中国移动通信集团设计院有限公司

国内会议

2016全国无线及移动通信学术大会

西安

中文

362-365

2016-09-01(万方平台首次上网日期,不代表论文的发表时间)