大数据视域下的中文词语研究初探(摘要)

摘要：

互联网提供了名副其实的文本大数据.如何在这个”新常态”下进行汉语各项研究,是一个具有挑战性的问题.本报告在报告人所提出的”基于自然标注大数据的语言计算”学术思想的基础上,拟主要以新词语自动发现及成语定量分析这两个任务为案例,介绍清华大学自然语言处理和社会人文计算实验室在大数据视域下所开展的中文词语相关研究的初步结果,并给出一些讨论.

关键词：中文词语自动发现定量分析大数据环境

作者: 孙茂松

作者单位: 清华大学计算机科学与技术系

会议类型: 国内会议

会议名称: 第五届海外中国语言学者论坛

会议地点: 成都

会议语种:中文

页码: 194-194

在线出版日期: 2015-06-03（万方平台首次上网日期，不代表论文的发表时间）

会议专题

大数据视域下的中文词语研究初探(摘要)