基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究
[目的]从文本中抽取脆弱生态治理技术、实施地、实施时间等命名实体,并分析相关态势.[方法]利用Bi-LSTM+CRF结合基于特征的命名实体知识库对脆弱生态治理领域CNKI数据库中的相关文献进行脆弱生态治理技术、地名实体、时间实体的自动抽取和标记.[结果]对于中文文献中生态治理技术相关实体的抽取,获得P值74.34%、R值64.04%和F1值68.81%.采用Bi-LSTM+CRF神经网络模型与单纯采用CRF相比,P值提高9.41%,F1值提高4.26%,R值基本持平.[局限]依赖于中文分词工具的准确性;仅对相关的实体进行抽取,尚未抽取实体之间的关系.[结论]Bi-LSTM+CRF结合基于特征的命名实体知识库抽取命名实体技术,可用于基于细粒度内容的资源环境情报分析.
Bi-LSTM+CRF 文本挖掘 生态治理技术 命名实体识别
马建霞 袁慧 蒋翔
中国科学院西北生态环境资源研究院文献情报中心 兰州730000 中国科学院大学经济与管理学院图书情报与档案管理系 北京100190
国内会议
兰州
中文
78-88
2019-07-10(万方平台首次上网日期,不代表论文的发表时间)