面向词性标注的多资源转化研究
利用多资源转化方法进行词性标注研究,旨在将源端资源的标注进行转化,以符合目标端标注规范,进而将转化后的资源与目标资源合并,增大训练数据规模.做了两方面创新:在转化过程中,额外利用指导特征的置信度信息;在转化后的资源中,用模糊标注表示方法减少错误标注.实验表明,利用置信度信息能有效帮助转化,而模糊标注表示方法的影响不大.
汉语词性标注 多资源转化 置信度信息 指导特征理论
高恩婷 巢佳媛 李正华
苏州科学技术学院电子与信息工程学院,苏州215011 苏州大学计算机科学与技术学院,苏州215006
国内会议
深圳
中文
328-334
2014-12-05(万方平台首次上网日期,不代表论文的发表时间)