基于混合模型的中文命名实体抽取系统

摘要：

中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决.解决方案是:利用规则,对机器分词后的文本进行修正;提出”群山”模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等.根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。

关键词：混合模型中文命名实体抽取系统机器分词领域规则统计学语言学

作者: 王睿张洁张由仪于禛姚天昉

作者单位: 上海交通大学,计算机科学与工程系,上海,200030

会议类型: 国内会议

会议名称: 第三届全国搜索引擎和网上信息挖掘学术研讨会

会议地点: 北京

会议语种:中文

页码: 1908-1914

在线出版日期: 2005-09-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于混合模型的中文命名实体抽取系统