大数据视域下的中文词语研究初探(摘要)
互联网提供了名副其实的文本大数据.如何在这个”新常态”下进行汉语各项研究,是一个具有挑战性的问题.本报告在报告人所提出的”基于自然标注大数据的语言计算”学术思想的基础上,拟主要以新词语自动发现及成语定量分析这两个任务为案例,介绍清华大学自然语言处理和社会人文计算实验室在大数据视域下所开展的中文词语相关研究的初步结果,并给出一些讨论.
中文词语 自动发现 定量分析 大数据环境
孙茂松
清华大学计算机科学与技术系
国内会议
成都
中文
194-194
2015-06-03(万方平台首次上网日期,不代表论文的发表时间)