基于全局/局部共现词对分布的汉越双语新闻事件线索分析
针对汉越双语新闻事件线索分析,提出了基于全局/局部共现词对分布的汉越双语事件线索生成方法.该方法首先将新闻话题词语分布作为全局词语表征全局事件,然后用一定时间粒度下新闻片段特有的时间、人物、地点等事件元素作为局部词语,分析新闻片段中全局词语和局部词语的共现关系,将全局/局部词语的共现规律作为监督信息,结合RCRP算法和汉越双语新闻的对齐语料,构建有监督话题生成主题模型,获得相应时间跨度下代表事件发展进程的子话题分布,通过子话题的分布反映事件发展的线索,从而构建出在线汉越双语事件线索生成模型.实验在汉越混合新闻数据集上进行,事件线索生成对比实验结果证明了提出的方法的有效性.
文本分析 共现词对分布 汉语 越南语
高盛祥 余正涛 龙文旭 丁硙 闫春婷
昆明理工大学 信息工程与自动化学院,昆明 650500
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-11
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)