会议专题

从实际应用看GoogleTM语言模型的缺陷

在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同,一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内嵌标点也算连续字串,外部链接视同文档内容。文章给出了弥补这些缺陷的建议。

文字处理 文档分析 语言模型 数理语言学

张化瑞

北京大学 计算语言学研究所,北京 100871

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

538-546

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)