会议专题

基于二维动态规划的文本分割模型

本文提出一种全局优化的文本分割模型,其中设计了基于语段内部词汇相似度、语段间词汇相似度和语段长度的分割方式评价函数,并采用二维动态规划来寻找全局最优解。模型基于如下假设:语段内部词汇相似度越大,语段问词汇相似度越小,语段长度越接近平均长度,则分割越优。在真实语料上的测试结果表明,该模型取得了很好的评价性能,与相关模型相比,其平均错误率(WindowDiff值)下降1.5%以上,更远远低于其他传统文本分割模型。

文本分割 语段内 词汇相似度 语段间 语段长度 二维动态规划

叶娜 郑妍 朱靖波 张斌

东北大学信息学院计算机软件所自然语言处理实验室,沈阳 110004 东北大学信息学院计算机应用所,沈阳 110004

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

209-215

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)