文本分类在商品广告分类中的应用
广告分类具有多方面的用途,如类别相关的商品检索和广告插入等。互联网上的广告数据大多含有丰富的可用于分类的信息,主要考虑如何利用文本信息进行分类。由于广告类别数目通常比较庞大,因此引入多层分类来提高分类系统的效率和正确率。在多层分类框架下,实现了多种特征选择算法并提出了一种“由粗到细”的特征抽取算法来综合全局和局部特征选择。在建立的商品广告数据库“amazonADs”上综合比较这几种算法的性能。实验结果表明单独使用某一种特征选择算法,信息增益总体上效果最优,或然比率在低维度情况下具有较高的正确率,使用“由粗到细”的特征抽取算法来综合这两种算法能进一步提高算法的性能。
商品广告 文本分类 多层分类 特征选择算法
罗勇 周超 许超
北京大学机器感知与智能教育部重点实验室,北京 100871
国内会议
银川
中文
206-208,284
2011-08-01(万方平台首次上网日期,不代表论文的发表时间)