利用词汇时间分布信息提取未登录词
语言监测必然要面对大量的未登录词。本文依据词汇的时间分布信息,提出了未登录词提取的新方法。词汇的时间分布信息是语料本身所蕴含的基本分布信息,但常常被忽略或者说难以运用。本文从语言符号的线性特点出发,研究了如何词汇的时间分布信息建模,并提出了新的度量指标——同步衰减频率,以自动提取未登录词。实验结果表明该方法不受词长限制,对低频词尤其具有良好的鲁棒性,同时验证了词汇的时间分布信息在词汇处理中的有效性。
时间分布信息 同步衰减频率 未登录词 语言监测
何伟 侯敏
中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心,北京,100024
国内会议
安徽黄山
中文
2007-10-21(万方平台首次上网日期,不代表论文的发表时间)