改善朴素贝叶斯在文本分类中的稳定性
由于朴素贝叶斯方法具有运行快速、易于实现的特点,它被广泛应用于各种文本分类及信息检索系统.然而它不稳定的性能却一直是一个令人困扰的弱点.本文通过分析朴素贝叶斯的两种常见的实现模型;二项独立模型(BIM0)和多项模型(MM),提出混和模型的朴素贝叶斯方法和带有单词量相关的平滑因子的混和模型.实验表明这两种模型较原来的模型在稳定性方面都有不同程度的提高,尤其是后者,它在保持朴素贝叶斯快速、易于实现的特点的同时,达到了与线性支持向量机接近的分类性能.
文本分类 朴素贝叶斯 信息检索
石志伟 吴功宜
天津师范大学计算机与信息工程学院(天津);南开大学信息技术科学学院(天津) 南开大学信息技术科学学院(天津)
国内会议
上海
中文
137-146
2004-11-01(万方平台首次上网日期,不代表论文的发表时间)