面向单一网页的双语资源挖掘方法

摘要：

双语资源是机器翻译和跨语言信息检索等领域的重要资源，但是由于语料库真实性、时效性和语种灵活性等问题，使得现有的双语资源的规模很难满足实际应用的需要。本文提出一种面向单一双语网页的双语资源挖掘方法，该方法与现今平行网页的双语资源挖掘技术不同，重点采用了以频繁序列模式为特征的SVM分类方法，实现了包含双语资源的单一网页的筛选与识别，并以此为基础挖掘具有对译的双语资源。实验结果表明，基于分类方法筛选出的双语网页具有91.25％的正确率，采用FSP算法的双语资源抽取正确率可达到92.5％。

关键词： Web挖掘网页分类双语资源频繁序列模式支持向量机

作者: 罗阳季铎张桂平王莹莹

作者单位: 沈阳航空航天大学知识工程中心,辽宁沈阳,110136

会议类型: 国内会议

会议名称: 第六届全国信息检索学术会议

会议地点: 黑龙江镜泊湖

会议语种:中文

页码: 375-382

在线出版日期: 2010-08-12（万方平台首次上网日期，不代表论文的发表时间）

会议专题

面向单一网页的双语资源挖掘方法