会议专题

统计机器学习中的特征选择方法综述

特征选择通常被视为数据挖掘的第一步,特别是对于高维稀疏数据,通过特征选择可以去除大量的冗余和不相关特征信息的干扰,有效降低问题特征空间的维数,从而提高对目标函数的预测性能,降低分析成本,而且经过选择的特征更易于被人理解,有利于揭示底层数据中蕴藏的有用信息.本文的主要贡献是对特征选择方法的发展历史和现状进行了跨学科的广泛调研,在此基础上总结提出了通用的方法定义和算法流程框架,并对特征选择方法研究和实践中需要注意的若干关键问题进行了综述.此外,本文对时下受到广泛关注的规范化特征选择方法,特别是以套索方法为代表的一类基于惩罚约束的自动特征选择方法进行了重点分析,该方法因其优良的特性和在常规方法难以胜任的高维特征空间取得的初步成功而备受关注,成为当前研究的焦点,为高维特征空间的特征选择提供了一个有希望的解决方案.

特征选择 弹性网络 统计机器学习 数据挖掘 数据降维 预测性能 惩罚约束

刘峤 秦志光 罗旭成 程红蓉

电子科技大学 计算机科学与工程学院,四川省 成都市 610054

国内会议

2009中国计算机大会

天津

中文

781-794

2009-10-23(万方平台首次上网日期,不代表论文的发表时间)