会议专题

基于混合模型的中文命名实体抽取系统

中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决.解决方案是:利用规则,对机器分词后的文本进行修正;提出”群山”模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等.根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。

混合模型 中文命名 实体抽取系统 机器分词 领域规则 统计学 语言学

王睿 张洁 张由仪 于禛 姚天昉

上海交通大学,计算机科学与工程系,上海,200030

国内会议

第三届全国搜索引擎和网上信息挖掘学术研讨会

北京

中文

1908-1914

2005-09-26(万方平台首次上网日期,不代表论文的发表时间)