面向互联网舆情的热词分析技术

热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术-----热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。
热词 命名实体识别 热度计算 波动权值 词群关系 互联网舆情
李渝勤 孙丽华
北京信息科技大学,北京 100101 北京拓尔思信息技术股份有限公司,北京 100101
国内会议
黑龙江镜泊湖
中文
682-690
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)