新闻网站大数据平台的构建--基于智能信息处理与云计算技术的思考
大江网(www.jxnews.com.cn)是由江西日报社主办的全国重点新闻网站.大江网的数据平台每日产生上百万的信息,如何组织这些海量的信息,并充分挖掘信息的相关性,建立相关数据模型,给读者提供个性化的新闻资讯,是所有新闻网站都需要解决的问题.互联网信息处理,需要考虑人对事件的态度、情感、意见、建议等主观性的要素,这对于信息挖掘提出了更高的要求。在事件演进过程中,人们的情感信息也会发生变化,通过对这些问题的研究,可以有助于在事件、情感之间建立关系。微博的传播更新速度明显要高于传统媒体,不同于传统媒体的另一个特点是,微博上的事件具有更强的随意性和开放性。通过传统媒体进行传播具有较高的滞后性。开放领域的事件抽取技术,通过对微博等数据的分析,自动发现事件,不仅可以显示正在发生和已经发生的事件,还可以预知未来将要发生的事件,类似于一个日程安排表,可以对于人们的行动起到指导作用。对于一个具有较长间隔的事件,应该通过对事件演进过程中的时间进行聚类、关键事件标识等操作,可以宏观描绘一个事件的发生发展的各个阶段,便于把握事件的脉络。对大数据的索引过程中,应充分对索引的膨胀系数进行控制,并对索引的异地备份保护、镜像数据的快速恢复、断电保护策略等制定详细的策略,使得基础数据的完整性、一致性、可控性有充分保证。
新闻网站 大数据 信息挖掘 语义分析 云计算
叶涛
江西日报社大江网站
国内会议
长沙
中文
149-151
2013-11-01(万方平台首次上网日期,不代表论文的发表时间)