语料采样中篇章平均使用度的可行性分析

摘要：

从90年代开始,国际自然语言处理领域的主要特征之一就是转向对大规模真实文本的研究和处理.随着语料规模的不断扩大,统计中的数据稀疏问题、垃圾语料带来的统计垃圾问题、汉语语料统计中的垃圾泛滥问题等等也越来越严重”1”.必须寻找既能分析、驾驭大规模真实文本,又能有效地加工、扬弃垃圾的语料库建设理论和处理方法.本文在语料平衡性前提下对语料采样的代表性做了大量的数值实验分析,实验表明,按照篇章使用度对语料进行采样比单纯利用绝对词频获得的语料具有更好的代表性.

关键词：语料采样使用度散布系数可行性分析语料库

作者: 许晶

作者单位: 北京邮电大学,北京,100876

会议类型: 国内会议

会议名称: 第十一届中国人工智能学术年会

会议地点: 武汉

会议语种:中文

页码: 1282-1287

在线出版日期: 2005-09-20（万方平台首次上网日期，不代表论文的发表时间）

会议专题

语料采样中篇章平均使用度的可行性分析