会议专题

面向互联网的话题发现技术研究

话题发现与跟踪(Topic Detection and Tracking, TDT)是一项由国际公开评测驱动的研究,旨在依据事件对语音和文本信息进行分析和组织。自1996年启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。大部话题发现与跟踪研究着眼于TDT评测的需要,以提高在TDT语料上的精度为目标,在面对实际数据时效果难以令人满意。本文将各种常用的聚类方法和比较策略组合起来形成四种实验方案,并针对四种实验方案在处理实际数据的表现进行比较分析。实验结果证明在面向实验数据时,带缓冲的改进single-pass方法和average-link的组合能取得较好的精度:分治聚类方法的引入则可以大幅度减少时间消耗。

话题发现跟踪 分治聚类 比较策略 文本聚类 互联网 TDT评测

邱立坤A 陶然 龙志祎 程葳

北京城市学院人工智能研究所,北京 100083 北京理工大学电子工程系,北京 1000081

国内会议

2007年全国网络与信息安全技术研讨会

青岛

中文

373-379

2007-07-18(万方平台首次上网日期,不代表论文的发表时间)