会议专题

面向单一网页的双语资源挖掘方法

双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。本文提出一种面向单一双语网页的双语资源挖掘方法,该方法与现今平行网页的双语资源挖掘技术不同,重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,基于分类方法筛选出的双语网页具有91.25%的正确率,采用FSP算法的双语资源抽取正确率可达到92.5%。

Web挖掘 网页分类 双语资源 频繁序列模式 支持向量机

罗阳 季铎 张桂平 王莹莹

沈阳航空航天大学知识工程中心,辽宁沈阳,110136

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

375-382

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)