会议专题

互联网舆论收集与分析系统

在互联网普及率快速增长的背景下,企业常面临着危机舆论带来的危机以及日常舆论带来的商机.面对互联网技术发展带来的海量数据时代,如何有效地开展舆情收集和分析成为各大企业关注的焦点.为了解决这个问题,作者提出包含数据层、舆论层和展示层3 层架构的互联网舆论自动收集与分析系统,实现了目标信息获取、舆论信息聚类、舆论信息描述和展示等功能.首先借助搜索引擎从互联网获取初步符合目标的数据集合,然后利用聚类算法将数据集合划分为簇(舆论集合),并利用自动摘要技术和关键词提取技术对舆论集合进行提炼,本文还详细讨论实现该想法的聚类技术和关键词和摘要提取技术,词语提取主要考虑词语频率、词语位置。处于标题、摘要、每篇文章的开头和结尾、每个自然段落的开头和结尾的词语重要性要高于其他位置的词语等,在本文系统中,如果企业对大众对于某项产品的态度感兴趣,则可以将表示喜好的情感词作为特殊词,对于摘要提取,由于自然语言理解技术和自然语言生成技术发展较为缓慢,因此概括自动摘要算法为一种理想的自动摘要技术,仍处于研究阶段,应用范围较窄。因此建议采取直接提取法,即将计算待处理舆论集合中各个句子的重要性,根据重要性直接从集合中直接抽取原句作为摘要,作者认为该系统可以帮助企业管理员快速了解感兴趣、有价值的舆论信息,是应对舆论危机公关和舆论商机利用的有力支撑.

企业管理 舆论收集系统 舆论分析系统 软件设计 聚类算法

王婵 李静 王栋 程杰 来风刚

国家电网公司信息通信分公司 北京 100761

国内会议

2015电力行业信息化年会

北京

中文

173-175

2015-09-23(万方平台首次上网日期,不代表论文的发表时间)