会议专题

基于Spark框架的文本主题特征提取与分类

主题模型目前广泛应用于机器学习与自然语言分析等领域,该模型自动分析一系列未识别的文档,试图通过统计信息发现多个抽象主题.主题模型在新闻文本智能处理与推荐领域的应用前景十分广阔.本文首先从文档自动分类为出发点,介绍文本分析的一般流程.在此基础之上,介绍主题模型和基于LDA模型的文本主题特征提取原理.最后结合Spark大数据处理的内存迭代和分布式计算特性,实现了基于LDA模型的文本主题提取过程,并给出了在新闻文本数据集上的主题抽取与分类预测结果.

新闻文本 主题模型 特征提取 大数据处理 内存迭代 分布式计算

史铭 张焰 陈立佳

新华社技术局

国内会议

中国新闻技术工作者联合会2015年学术年会

合肥

中文

21-26

2015-10-01(万方平台首次上网日期,不代表论文的发表时间)