基于SVM过滤的微博新闻话题检测方法
在基于聚类的话题检测方法上提出了一种基于SVM过滤的检测方法,该方法在聚类前将微博文本特征抽象成用于输入向量机的向量,对微博文本进行过滤,降低了计算量.并针对微博聚类的长尾现象提出了基于高频词排序的改进单遍聚类方法,能很好地检测孤立点的存在.实验表明,该方法在海量微博数据中能有效地检测出新闻话题.
微博文本 话题检测 支持向量机过滤 数据处理
程俊霞 李芝棠 邹明光 肖津
华中科技大学 计算机学院,湖北武汉430074 华中科技大学 计算机学院,湖北武汉430074;下一代互联网接入系统国家工程实验室,湖北武汉430074
国内会议
兰州
中文
74-78
2013-10-14(万方平台首次上网日期,不代表论文的发表时间)