会议专题

汉语语料中对未知词汇的自动提取

在智能中文信息处理中,对未知词汇的自动提取是非常重要的课题。它对自然语言理解都具有重大意义。该文介绍了一种对未知词汇,特别是各种人名,地名及专业术语等自动提取的智能方法。这种方法以信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念,通过与已有词典的配合,成功地实现了高正确率的未知词汇自动提取。并列出了试验结果。

极限熵 离散平稳信源 最大似然度 汉语语料 语料库 信息处理

高军 陈锡先

邮电大学信息技术实验室

国内会议

1998年中国智能自动化学术会议

上海

中文

784~789

1998-05-01(万方平台首次上网日期,不代表论文的发表时间)