基于向量空间模型的网页文本句子对齐方法研究
平行网页文本中除了互为对照的内容,还存在一些无关的噪声,因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制。通过引入互译词典或同类词典的方法可以提高句对齐质量,但是双语词典的规模是有限的,不能覆盖所有对应的词汇。<br> 本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐,在向量空间模型中,网页文本中的句子为一维空间中的向量,选取实词作为特征项,利用CHI统计量计算词汇关联度,采用TF-IDF算法计算特征项权重,采用cosine距离计算句子向量之间的相似度,解决平行网页文本句对齐问题。以蒙古文-中文平行网页为实验对象,设计了相关实验。实验结果证实了本文方法的有效性。
语音处理 互译词典 CHI统计 数理语言学
张贯虹 乌达巴拉 巩政
合肥学院 计算机科学与技术系 网络与智能信息处理重点实验室 安徽合肥 230601 中国科学院合肥物质科学研究院 安徽合肥 230031 内蒙古大学 计算机学院 内蒙古呼和浩特 010021
国内会议
西安
中文
1-7
2011-10-16(万方平台首次上网日期,不代表论文的发表时间)