会议专题

利用词的分布式表示改进作文跑题检测

作文跑题检测任务的核心问题是文本相似度计算.传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度.这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息.本文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展.然后对扩展后的文本计算相似度.本文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试.实验结果表明本文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统.

作文跑题检测 文本相似度 分布式表示 词袋模型

陈志鹏 陈文亮 朱慕华

苏州大学计算机科学与技术学院,江苏 苏州 215006;软件新技术与产业化协同创新中心,江苏 苏州 215006 淘宝(中国)软件有限公司,浙江 杭州 311100

国内会议

中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)

广州

中文

1-9

2015-11-13(万方平台首次上网日期,不代表论文的发表时间)