会议专题

基于CRFs的中文领域术语自动抽取研究

本文提出基于条件随机场(CRFs)的中文领域术语的自动抽取方法,在给定领域分类语料前提下,该方法不仅很好解决了未登录词中的领域术语抽取的问题,而且还很好的解决三字以上长字词领域术语的抽取问题。本文以云南旅游领域为实验对象,并与基于互信息结合T 评价的传统领域术语抽取方法作比较,人工评测显示基于CRFs的方法能准确有效的抽取领域术语,并能很好的抓取未登录词中的领域术语和长字词领域术语,明显提高了领域术语的抽取的准确率和召回率。

CRFs 条件随机场 机器学习 互信息 领域术语 特征选择

王海雄 郭剑毅 余正涛 毛存礼 张朝胜 雷春雅

昆明理工大学信息工程与自动化学院,昆明 650051 昆明理工大学信息工程与自动化学院,昆明 650051;云南省计算机技术应用重点实验室智能信息处理研究所,昆明 650051 云南省计算机技术应用重点实验室智能信息处理研究所,昆明 650051

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

505-512

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)