文本分类中基于摘要结构的特征选取方法
特征选取是文本分类过程中的一个重要步骤.为了能够更加有效地进行特征选取,本文提出了一种基于摘要结构的特征选取方法.它利用了中文写作具有格式化、中文论文及文章的重点段落分布具有一定规律的特点,得到一个由这些特殊段落组成的粗略的摘要,因此,摘要中涉及到的词条将更具有代表性和高区别性.同时根据这一特点,提出了区别度的新概念,修改了TF-IDF公式.结果表明,该方法确实改进了特征选取的结果.
摘要结构 特征选取 文本分类 区别度
张洁 周长胜
北京机械工业学院计算机及自动化系,北京,100085
国内会议
沈阳
中文
324-327
2005-09-01(万方平台首次上网日期,不代表论文的发表时间)