基于70年报刊语料的现代汉语历时稳态词抽取与考察
本文基于70年跨度的历时报刊语料库,使用9种统计方法计算了词语的历年使用情况,并通过对稳定性、覆盖度和时间区分性能的考察筛选获得了规模3015词的历时稳态词候选词集.该词集中动词与名词各占约三分之一(其余为形容词、副词与虚词),平均词长约1.7字,前密后疏得分布于历时语料库总频序表的前7609位,覆盖了近九成语料.该部分词语中包含大量构造句子结构的核心词语.它们塑造了稳态词在词长和词类上的特性.稳态词的提取可以加深对语言生活底层与基础词汇的认识,对汉语教学、中文信息处理和语言规划都具有重要意义.
现代汉语 稳态词 历时语料库 语言监测
饶高琦 李宇明
北京语言大学,北京,100083
国内会议
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)
烟台
中文
1-13
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)