从实际应用看GoogleTM语言模型的缺陷

摘要：

在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同，一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷：内嵌标点也算连续字串,外部链接视同文档内容。文章给出了弥补这些缺陷的建议。

关键词：文字处理文档分析语言模型数理语言学

作者: 张化瑞

作者单位: 北京大学计算语言学研究所,北京 100871

会议类型: 国内会议

会议地点: 太原

会议语种:中文

页码: 538-546

在线出版日期: 2008-07-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题