Dotplotting文本分割技术的分析与改进
在线性文本分割领域,Dotplotting是一个很著名的方法.本文对Dotplotting方法进行了详细的分析,发现了其中存在的两个问题.一个问题是,Dotplotting方法的分割评价函数不是对称的,造成分割方式随阅读方向的不同而不同,这是违背事实的;另一个问题是,有时分割结果中会出现长度过短的语义段落,而长度过短的文本片段很难清楚地说明一个独立的主题.针对上述两个问题,本文通过在评价函数中同时考虑正向分割和反向分割,并加入惩罚因子,提出了改进的模型.实验结果表明改进后的模型比原始Dotplotting模型的性能有很大提高.
正向分割 反向分割 长度惩罚因子 文本分割技术 Dotplotting方法
罗海涛 叶娜 朱靖波
东北大学自然语言处理实验室,沈阳,110004
国内会议
沈阳
中文
187-191
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)