会议专题

基于百度百科与文本分类的网络文本语义主题抽取方法

  网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘。百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法。首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题。最后提出根据语义离散度确定最终语义主题。在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能。

百度百科 语义主题 主题抽取 语义离散度

陈叶旺 陈朝阳 钟必能 缑锦 陈锻生

华侨大学 计算机科学学院 福建 厦门 361021

国内会议

2012年第三届中国计算机学会服务计算学术会议

西安

中文

1-7

2012-08-16(万方平台首次上网日期,不代表论文的发表时间)