基于Web文本挖掘的聚类技术研究

摘要：

本文首先简要介绍聚类的概念,接下来引入一个检索后聚类算法所需要的特性,并得到后缀树聚类算法,然后系统介绍后缀树的数据结构:它的定义、特征和算法结构；最后从Web挖掘出发,通过抽取网页的层次链接文本,作为网页的类别信息,再利用后缀树聚类技术对检索结果进行了动态层次聚类分析.利用后缀树及其算法可以高效率地处理有关字符串以及英文文档聚类的问题.

关键词：搜索引擎文本挖掘后缀树算法聚类技术

作者: 李凯孙大鹏穆筝

作者单位: 辽宁省通信管理局网络信息安全处 110036

会议类型: 国内会议

会议名称: 辽宁省通信学会2011年通信网络与信息技术年会

会议地点: 沈阳

会议语种:中文

页码: 456-461

在线出版日期: 2011-06-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于Web文本挖掘的聚类技术研究