会议专题

基于维基百科类别的文本特征表示

本文提出了基于维基百科类别体系的文本特征表示方法,该方法将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,本文提出了一种基于全局信息自学习维基百科类别的方法。本文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在特征数为700个时,分类的F1值提高了5.14%。

文本分类 维基百科类别 文本表示

王锦 王会珍 张俐

东北大学自然语言处理实验室,辽宁沈阳 110004 医学影像计算教育部重点实验室(东北大学),辽宁沈阳,110819

国内会议

第五届全国青年计算语言学研讨会(YWCL 2010)

武汉

中文

445-451

2010-10-11(万方平台首次上网日期,不代表论文的发表时间)