在线新闻主题检测系统的设计与应用
利用主题检测技术可以从海量新闻信息中实时检测到主题信息,从而将新闻信息按照主题组织并加以利用.文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验.结果表明了该系统的有效性.该系统在新华网数据中心的成功应用进一步表明系统达到了实用需求.
主题检测 增量式聚类算法 自适应倒排文档频率
万小军 杨建武
北京大学计算机科学技术研究所(北京)
国内会议
第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004)
广州
中文
42-46
2004-11-12(万方平台首次上网日期,不代表论文的发表时间)