基于向量空间模型的网页文本句子对齐方法研究

摘要：

　　平行网页文本中除了互为对照的内容，还存在一些无关的噪声，因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制。通过引入互译词典或同类词典的方法可以提高句对齐质量，但是双语词典的规模是有限的，不能覆盖所有对应的词汇。<br>　　本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐，在向量空间模型中，网页文本中的句子为一维空间中的向量，选取实词作为特征项，利用CHI统计量计算词汇关联度，采用TF-IDF算法计算特征项权重，采用cosine距离计算句子向量之间的相似度，解决平行网页文本句对齐问题。以蒙古文-中文平行网页为实验对象，设计了相关实验。实验结果证实了本文方法的有效性。

关键词：语音处理互译词典 CHI统计数理语言学

作者: 张贯虹乌达巴拉巩政

作者单位: 合肥学院计算机科学与技术系网络与智能信息处理重点实验室安徽合肥 230601 中国科学院合肥物质科学研究院安徽合肥 230031 内蒙古大学计算机学院内蒙古呼和浩特 010021

会议类型: 国内会议

会议名称: 第十一届全国人机语音通讯学术会议

会议地点: 西安

会议语种:中文

页码: 1-7

在线出版日期: 2011-10-16（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于向量空间模型的网页文本句子对齐方法研究