会议专题

最大熵建模方法中一种改进的特征选择算法

本文对应用最大熵原理建立语言模型的特征选取方法提出了改进,即先利用特征模板从训练样本中获得候选特征集,再应用频次与平均互信息相结合的方法从候选特征集中选取特征.改进后的方法在选择特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入特征集,并且不是每选出一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算法是有效的.

最大熵方法 特征选择 语言建模 纠错排歧 自然语言处理

张仰森 曹元大

山西大学计算机科学系(太原);北京理工大学计算机科学工程系(北京) 北京理工大学计算机科学工程系(北京)

国内会议

第一届全国信息检索与内容安全学术会议

上海

中文

43-51

2004-11-01(万方平台首次上网日期,不代表论文的发表时间)