会议专题

一种面向海量实时数据的信息检索算法

网络信息资源的迅猛膨胀推进了信息检索技术的发展和成熟,但将现有的技术应用于海量实时网络数据时,传统的信息检索算法仍存在种种不足之处.本文中以CERNET华(东)北地区的海量实时网络数据环境为依托,研究和设计了两段向量簇聚类信息检索算法,通过插入聚类和优化聚类两阶段的操作,提供高效的信息处理能力.同时,基于簇聚类树实现了群发邮件甄别的应用,对网络数据中的垃圾邮件进行过滤,进一步地提高检索效率.

海量实时数据 信息检索 簇聚类 邮件甄别

丁伟 林容容 倪良胜

东南大学计算机科学与工程系(江苏南京)

国内会议

第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004)

广州

中文

6-10

2004-11-12(万方平台首次上网日期,不代表论文的发表时间)