从实际应用看GoogleTM语言模型的缺陷
在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同,一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内嵌标点也算连续字串,外部链接视同文档内容。文章给出了弥补这些缺陷的建议。
文字处理 文档分析 语言模型 数理语言学
张化瑞
北京大学 计算语言学研究所,北京 100871
国内会议
太原
中文
538-546
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)