会议专题

汉语语料库大规模统计与小规模统计的对比

本文以上海市中小学语文教材语料库为统计样本,对比统计了大规模汉语语料库与小规模汉语语料库在覆盖率及分布率两个方面的数据,统计分析表明:1.高频字比率随着文本规模的增大而下降,但高频字的绝对数在合计文本统计中基本保持不变,维持在500-600字之间。2.总字次数与平均出现次数及总字种数,呈正相关关系,不过平均出现次数及总字种数的增长幅度不如总字次数大,尤其是总字种数增长幅度要缓慢得多。3.在覆盖率方面大规模统计与小规模统计以及单个的小文本统计三者之间都存在着很大的差异。4.在字种数方面,单个的小文本统计与合计文本统计之间有较大差异,而大规模统计与小规模统计之间差不多。5.从分布率来看,上海市语文教材不同文本之间的共用字是很少的,不能笼统地说认识500多个汉字就能认识文本中80%的汉字。6.对于由多个子语料库构成的语料库而言,总字种数的大小影响到它们之间共用字种的百分比。一般说,总字种数越小,则共用字种的百分比越大。

大规模统计 小规模统计 汉语语料库 中小学语文教材

郭曙纶

上海交通大学国际教育学院

国内会议

第二届全国教育教材语言专题学术研讨会

福建武夷山

中文

59-71

2008-11-01(万方平台首次上网日期,不代表论文的发表时间)