借助汉-越双语词对齐语料构建越南语依存树库
由于对越南语的研究工作相对比较少,因此还没有建立规模相对较大的依存树库.相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难的多,所以本文提出了一种借助汉—越双语词对齐语料构建越南语依存树库的方法.首先对汉语—越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析.最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉—越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库.实验表明,该方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间.实验结果表明,该方法相比采用机器学习的方法准确率明显提高.
依存树库 双语词 词对齐处理 越南语
李发杰 余正涛 郭剑毅 李英 周兰江
昆明理工大学信息工程与自动化学院,云南 昆明 650500;昆明理工大学智能信息处理重点实验室,云南 昆明 650500
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-8
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)