会议专题

基于自学习策略的产品特征自动识别

本文主要考察只有规模很小的标注语料可用时,如何进行产品特征的自动识别。特别地,产品特征应按句子进行识别,因此识别过程可看为二元分类问题。本文中产品特征候选用二值向量表示,并用朴素贝叶斯分类器进行分类。训练语料足够大时,仅用朴素贝叶斯进行分类可取得不错的效果,但本文的目标是:在小规模的已标语料以及大规模的未标语料基础上,逐步扩大已标语料的规模。本文提出了一种半监督的自学习方法对产品特征进行迭代学习。实验结果表明,当已标语料规模较小时。自学习方法取得的效果优于有监督方法.

产品特征 自学习策略 情感分析 文本挖掘 迭代学习

王波 王厚峰

北京大学计算语言学研究所 北京 100871

国内会议

第九届全国计算语言学学术会议

大连

中文

509-514

2007-08-06(万方平台首次上网日期,不代表论文的发表时间)