会议专题

基于随机森林分类的微博机器用户识别研究

针对网络上机器用户大量散布谣言,发布虚假信息,误导网民舆论,严重影响网络环境的问题,以微博中的机器用户为研究对象,结合其自动化程度高、伪装能力强、信息发布有针对性的特点,从行为模式、微博内容、用户关系和发布平台4个维度分析机器用户的特征指标,利用信息熵、内容重复率等8个指标构建微博用户的特征向量,通过随机森林算法设计微博中机器用户的识别模型.最后,在真实的新浪微博数据集上进行验证,结果表明本模型识别机器用户的准确度达到96.7%,可以有效地区分微博中的机器用户和普通用户.

信息识别 微博平台 机器用户 特征向量 随机森林算法

刘勘 袁蕴英 刘萍

中南财经政法大学信息与安全工程学院,武汉430074 武汉大学信息管理学院,武汉430072

国内会议

第三届CCF国际自然语言处理与中文计算会议

深圳

中文

289-300

2014-12-05(万方平台首次上网日期,不代表论文的发表时间)