短文本聚类簇描述及标签生成方法
从产生大量短文本的微博、微信、用户评论、交互式问答系统等社会化媒体出发,在分析短文本特点的基础上,对短文本聚类得到的类簇描述方法进行了研究.首先,基于网页排序的PageRank算法思想提出短文本重要性排序计算方法;其次,通过选取最具代表性的短文本完成对类簇的描述,满足了用户快速了解类簇内容的需求;再其次,在选取出的几个短文本中进行分词和词频统计,提出按语法规则合并高频词的类簇标签生成方法;最后,以某幼儿教育公司自动问答系统为例,对所提出的类簇标签生成方法进行了验证和分析.
文本处理 聚类簇描述 标签生成方法 重要性排序 PageRank算法
王宇 伍力慧
大连理工大学管理与经济学部,大连116024
国内会议
济南
中文
601-605
2015-10-24(万方平台首次上网日期,不代表论文的发表时间)