会议专题

基于Web文本挖掘的聚类技术研究

本文首先简要介绍聚类的概念,接下来引入一个检索后聚类算法所需要的特性,并得到后缀树聚类算法,然后系统介绍后缀树的数据结构:它的定义、特征和算法结构;最后从Web挖掘出发,通过抽取网页的层次链接文本,作为网页的类别信息,再利用后缀树聚类技术对检索结果进行了动态层次聚类分析.利用后缀树及其算法可以高效率地处理有关字符串以及英文文档聚类的问题.

搜索引擎 文本挖掘 后缀树算法 聚类技术

李凯 孙大鹏 穆筝

辽宁省通信管理局网络信息安全处 110036

国内会议

辽宁省通信学会2011年通信网络与信息技术年会

沈阳

中文

456-461

2011-06-01(万方平台首次上网日期,不代表论文的发表时间)