中文缩略语知识库建设
缩略语是自然语言语汇的重要组成部分,是未定义词的主要来源之一,因此,缩略语研究是自然语言处理的一个重要课题.本项研究的最终目标是探索中文缩略语的规律,包括缩略语的生成和还原,也就是缩略语的编码和解码.本项研究旨在建立一个中文缩略语知识库,协助机器自动还原中文缩略语.我们建立了面向信息处理的中文缩略语分类体系,完成了8000个缩略语的归类,建立大规模缩略语知识库(每个记录主要包括缩略语、其对应的完整语汇或全称以及缩略语的同形信息等).根据已完成工作的经验,对中文缩略语出现的形式进行了总结和分类,提出了针对特殊缩略语的自动还原办法.中文缩略语的研究也可为各种语言缩略语共同规律的研究提供数据基础和技术借鉴.
自然语言处理 缩略语 未定义词 数据库 缩略语知识库
支流 段慧明 朱学锋 俞士汶
北京大学计算语言学研究所,北京,100871
国内会议
沈阳
中文
316-320
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)