会议专题

基于多向量和实体模糊匹配的话题关联识别

本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细的划分。还提出一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型问的相似度。本文选用TDT4中文语料作为测试语料,将该模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。

话题关联识别 多向量表示模型 命名实体模糊匹配 中文信息处理

张晓艳 王挺 陈火旺

国防科技大学计算机学院,长沙 410073

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

31-37

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)