《人民日报》1998年语料库中若干基本语言数据的统计与分析
本文汇报了对”北京大学计算机语言所1998年《人民日报》语料库”半年语料的统计分析工作.其中统计了语料库中的词频、词在词类上的分布、词类的二元和三元共现、词与二元及三元词类的共现、各种共现在句子首尾端的边界分布.本文还对上述统计结果进行了分析,着重讨论了高频词语词类的分布以及句子的边界情况.这些结论对于该语料库的全面分析提供了重要的基础数据.
词频 词类共现 散列 分布 边界 语料库 自然语言处理
胡景贺
北京大学计算机系(北京)
国内会议
北京
中文
299-305
2002-08-01(万方平台首次上网日期,不代表论文的发表时间)