基于维基百科的汉日双语命名实体翻译等价对自动获取方法
提出了一种基于维基百科的汉日双语命名实体对自动获取方案。基本思想是先从维基百科中抽取汉日双语标题对作为训练数据,训练一个统计机器翻译系统;再抽取汉语或者日语的单语标题,通过翻译得到目标语言的翻译结果;然后,使用互联网对翻译结果进行自动查错;自动查错后的双语实体对抽取结果,抽取双语对中日语或汉语的每个条目的首段内容的主要特征,与条目的分类信息一起作为最大熵模型训练数据的特征集合,对命名实体进行词性标注,获得最终的双语命名实体对;通过反馈处理扩大统计机器翻译和最大熵模型的训练集合,不断提高翻译精度。实验结果表明,词性标注准确率达91.131%,翻译结果的BLEU和NIST均值分别达到0.8688和13.7564。
茹旷 徐金安
北京市海淀区北京交通大学计算机与信息技术学院
国内会议
上海
中文
157-162
2012-11-17(万方平台首次上网日期,不代表论文的发表时间)