会议专题

因特网上的写作风格鉴别

根据写作风格来鉴别作者这一问题在国外很早就已经开始研究了,并有很多成功应用.而针对中文的研究却非常少.首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不同的分类方法.实验结果表明采用虚词频率作为特征是行之有效的,即使采用最简单的模板匹配的识别方法都能够取得很好的识别效果,采用SVM等方法可以进一步提高识别率,此外可以在一定范围内减少使用的虚词的数量,而不损失识别效果.

写作风格 文本分类 虚词频率 作者鉴别 因特网

金奕江 孙晓明 马少平

清华大学计算机系,智能技术与系统国家重点实验室(北京)

国内会议

第七届中国人工智能联合学术会议

桂林

中文

62-66

2003-01-01(万方平台首次上网日期,不代表论文的发表时间)