基于WEB的计算机领域新术语的自动检测
本文主要介绍”基于WEB的计算机领域新术语的自动检测”算法的设计和实现。随着计算机技术的迅猛发展,英语中每天者会出现大量的该领域的新术语,如何将这些新兴术语及时发现并纳入到汉语中来,是一个迫切而非常有意义的工作。该算法正是基于这一需求而设计实现的。其核心思想是,首先通过语料库的比对,找到”自某一时间点”以来在计算机类语料库中新出现的词语,即候选新术语,它们满足新术语的第一个特征;然后通过考查候选新术语在时间上的频度曲线,找到其中被广泛地应用,而非昙花一现的词语,确定为新术语。
自然语言处理 自动检测 N元词串 语料库 WEB检测
刘知远 孙茂松
清华大学计算机科学与技术系,清华信息科学与技术国家实验室,北京 100084
国内会议
大连
中文
515-521
2007-08-06(万方平台首次上网日期,不代表论文的发表时间)