会议专题

关联规则制导的遗传算法在文本分类中的应用

文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点.文本分类旨在将大量文本划分为若干子类,使得各文本子类代表不同的概念主题.文本分类技术被广泛应用于文本处理的诸多领域,如自然语言处理、新闻分类和搜索引擎以及信息检索等. 当前文本分类的常用方法有支持向量机法(SVM)、最近邻居分类法(kNN)、神经网络分类法(NNet)、贝叶斯法(NativeBayes)、决策树方法(DTree)等。尽管国际上已有大量文本自动分类研究成果出现,但对中文文本的自动分类技术研究尚远未尽如人意。本文在考查上述文本分类模型的基础上,提出了利用遗传算法做文本属性的选择。在文中,提到了用遗传算法进行中文Web文档文类的思想,本文对其进行了进一步的讨论,特别是在对简单遗传算法SGA进行深入了解基础上,在遗传编码和适应度函数的设计上进行了改进,提出了关联规则制导的遗传算法(ARGA)。

关联规则制导 遗传算法 文本分类

胡蓉 唐常杰 陈敏敏 栾江

四川大学计算机学院,成都,610064

国内会议

第十九届全国数据库学术会议

郑州

中文

66-68

2002-08-26(万方平台首次上网日期,不代表论文的发表时间)