基于Session的特征选择
随着网络技术的发展,网络数据的存在形式越来越多,其中有很大一部分数据是以新闻组、讨论组、BBS和邮件列表的形式存在.上述这种数据称为Session数据,虽然它们现在的组织结构及体现的价值并不像网站那样直接,想念在不远的将来,我们很多重要的信息来源都离不开这些数据.为了降低对Session数据研究的复杂性,本研究以微软公司的PSS数据(一系列领域相关的邮件列表)为蓝本,分析了用传统文本分类学习方法研究Session数据的困难和不足之处以及探索用于处理Session数据新的研究方法的必要性.在上述前提下,本研究提出了两个层次的特征选择方法来改善性能.首先使用基于Session的特征选择模型(包括过滤无用邮件模型和基于Session摘要模型)对Session数据进行第一次处理,然后沿用传统的文本分类学习方法将Session数据视为普通的文本进行传统的特征选择.最后还提出了为Session中每封电子邮件标注关键词的应用.通过在原型系统上进行实验,验证了本研究提出的基于Session特征选择模型的有效性,并展望如何推广应用到更为复杂的Session数据类型上.
特征选择 文本挖掘 文本分类 SVD降维 事例检索 网络数据
陈展文 文继荣 陈泽琳
华南理工大学计算机学院(广州) 微软亚洲研究院多媒体管理组(北京)
国内会议
北京
中文
342-353
2003-11-01(万方平台首次上网日期,不代表论文的发表时间)