基于搜索引擎的双语混合网页识别新方法

摘要：

本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法，该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。本文中把双语混合网页的验证看作是有效的分类问题，该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2516条检索结果记录，本文提出的方法取得了81.3％的精确率和94.93％的召回率。

关键词： Web挖掘双语混合网页平行语料搜索引擎人工标注

作者: 冯艳卉洪宇颜振祥姚建民朱巧明

作者单位: 苏州大学计算机科学与技术学院,苏州 215006

会议类型: 国内会议

会议名称: 第六届全国信息检索学术会议

会议地点: 黑龙江镜泊湖

会议语种:中文

页码: 391-400

在线出版日期: 2010-08-12（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于搜索引擎的双语混合网页识别新方法