会议专题

基于写作风格的作者识别

根据写作风格来识别作者这一问题在国外很早就已经开始研究了,并有很多成功应用.而针对中文的研究却非常少.本文首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不同的分类方法.实验结果表明采用虚词频率作为特征是行之有效的,即使采用最简单的模板匹配的识别方法都能够取得很好的识别效果,采用SVM等方法可以进一步提高识别率.此外可以在一定范围内减少使用的虚词的数量,而不损失识别效果.

写作风格 文本分类 虚词频率 作者识别

孙晓明 清华大学计算机科学与技术系(北京) 马少平 清华大学计算机科学与技术系(北京)

智能技术与系统国家重点实验室

国内会议

中国中文信息学会二十周年学术会议

北京

中文

198-204

2001-11-11(万方平台首次上网日期,不代表论文的发表时间)