会议专题

为微型语料库标记词类使用田野调查人员记录及基于转换的自动学习

本文以语言学家及田野调查人员习用的注记作为初级词类标记,搭配Brill(1993)的基于转换的错误驱动学习,在较少人为加工的情况下,为微型语料库自动标上词类.在处理注记中的语意及语法信息后,初级标记的正确率约83.89﹪,加上转换规则后约是88.11﹪.本文并报告了标记不同发音人、不同题目、不同语体的具体情况,并指出只使用排名较前的几个规则,可以得到较佳的结果.

词类标记 语料库 田野调查 赛夏语 自动学习 少数民族语言 自然语言

林哲民

台湾大学语言学研究所(台湾台北)

国内会议

第二届全国学生计算语言学研讨会

北京

中文

244-249

2004-08-01(万方平台首次上网日期,不代表论文的发表时间)