基于时间序列分析的网络内容噪声过滤方法
针对网络舆情分析领域中内容噪声过滤这一关键技术问题,本文分析了网络流量内容噪声问题的特点,提出了一种基于词频时间序列分析的网络内容噪声过滤方法,该方法通过拟合词频时间序列的自回归(AR)模型,采用AR模型参数向量在多维向量空间中描述流量内容时序特性,并使用支持向量机分类方法区分正常内容与噪声内容,可作为网络舆情分析、内容审计等多种网络内容分析技术的数据预处理方法,基于真实数据的实验结果表明,该过滤方法能够有效过滤网络内容中的高频噪声信息,并达到较好的性能指标。
网络内容 噪声过滤 时间序列分析 支持向量机 网络舆情分析 网络流量 数据预处理
周亚东 孙钦东 管晓宏 李卫
西安交通大学智能网络与网络安全教育部重点实验室,机械制造系统工程国家重点实验室,西安 710049 清华大学智能与网络化系统研究中心,清华信息科学与技术国家实验室,北京 100084 西安理工大学计算机科学与工程学院,西安 710048
国内会议
天津
中文
46-53
2009-10-23(万方平台首次上网日期,不代表论文的发表时间)