会议专题

基于序列数据挖掘的中文网页特征选择方法

提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.

序列数据挖掘 pat树 净频率 频繁字串 中文网页分类

谷峰 刘晨曦 吴扬扬

华侨大学,计算机科学系,福建,泉州,362021

国内会议

第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)

济南

中文

95-98

2006-07-21(万方平台首次上网日期,不代表论文的发表时间)