会议专题

《人民日报》1998年语料库中若干基本语言数据的统计与分析

本文汇报了对”北京大学计算机语言所1998年《人民日报》语料库”半年语料的统计分析工作.其中统计了语料库中的词频、词在词类上的分布、词类的二元和三元共现、词与二元及三元词类的共现、各种共现在句子首尾端的边界分布.本文还对上述统计结果进行了分析,着重讨论了高频词语词类的分布以及句子的边界情况.这些结论对于该语料库的全面分析提供了重要的基础数据.

词频 词类共现 散列 分布 边界 语料库 自然语言处理

胡景贺

北京大学计算机系(北京)

国内会议

第一届学生计算语言学研讨会

北京

中文

299-305

2002-08-01(万方平台首次上网日期,不代表论文的发表时间)