基于隐含狄列克雷分配的短文本分类方法
短文本具有特征非常稀疏和上下文依赖性强的特点,这为短文本分类带来了困难.为了综合考虑这两个问题,在隐含狄列克雷分配模型的基础上提出了一种短文本分类新方法,不但将共有词通过主题来区分上下文,而且将可区分词通过主题关联来减少稀疏性.采用K近邻分类方法对自动抓取的网易页面标题数据进行分类,并与已有的两种方法进行对比,实验表明所提出的方法取得了相对更好的分类效果.
张志飞 苗夺谦 高灿
同济大学计算机科学与技术系,上海 201804
国内会议
上海
中文
78-83
2012-11-17(万方平台首次上网日期,不代表论文的发表时间)