会议专题

语料采样中篇章平均使用度的可行性分析

从90年代开始,国际自然语言处理领域的主要特征之一就是转向对大规模真实文本的研究和处理.随着语料规模的不断扩大,统计中的数据稀疏问题、垃圾语料带来的统计垃圾问题、汉语语料统计中的垃圾泛滥问题等等也越来越严重”1”.必须寻找既能分析、驾驭大规模真实文本,又能有效地加工、扬弃垃圾的语料库建设理论和处理方法.本文在语料平衡性前提下对语料采样的代表性做了大量的数值实验分析,实验表明,按照篇章使用度对语料进行采样比单纯利用绝对词频获得的语料具有更好的代表性.

语料采样 使用度 散布系数 可行性分析 语料库

许晶

北京邮电大学,北京,100876

国内会议

第十一届中国人工智能学术年会

武汉

中文

1282-1287

2005-09-20(万方平台首次上网日期,不代表论文的发表时间)