唐诗题材自动分类研究
将文本分类技术引入唐诗研究.首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类,并据此提出唐诗题材自动分类模型.所选500首诗歌样本以《唐诗三百首》为基础,并有所补充.采用向量空间模型(VSM)将唐诗文本转换为向量,通过卡方检验进行词语特征选择,最后基于朴素贝叶斯和支持向量机算法构造文本分类器,取得较好的题材分类效果.此外,还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设,为相关诗歌本体研究提供了科学依据。
唐诗 题材分类 向量空间模型 计算机技术
胡韧奋 诸雨辰
北京师范大学中文信息处理研究所,北京100875 北京师范大学文学院,北京100875
国内会议
深圳
中文
262-268
2014-12-05(万方平台首次上网日期,不代表论文的发表时间)