会议专题

基于机器学习的非话题性博文过滤技术

随着在线社交网络的高速发展,在线社交网络分析成为当今研究热点.Twitter作为全球最具影响力的微博平台,吸引了大量学者进行研究.然而,Twitter中包含了大量的噪声,为了提高各种社交网络分析系统的性能,作为个性化信息推荐、地震预测、舆情监控等系统的前期工作,本文旨在识别出Twitter中的非话题性博文,过滤Twitter中的噪声.本文从博文的社交、词汇、文本3个方面抽取特征,运用机器学习技术,训练分类器用以识别非话题性博文.本系统的准确率达到了86%,召回率达到了87%,有效地提高了个性化信息推荐、地震预测、舆情监控等系统的运行效果.

社交网络 信息过滤 文本分类 特征提取

张晨露 黄九鸣 朱湘

国防科技大学计算机学院,湖南,长沙,410073

国内会议

第十一届中国通信学会学术年会

南昌

中文

1-7

2015-10-28(万方平台首次上网日期,不代表论文的发表时间)