一种挖掘网页标题中命名实体的远距监督方法

摘要：

本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法.首先,通过关联规则挖掘,从百科词条标签数据集中挖掘出层次化的类别结构;然后,以特定类别下百科实体的参考资料网址和相应网页标题作为训练数据,利用一种基于跳跃二元语法模型的贪心策略,学习得到网址和网页标题的混合模板,用于从网页标题中挖掘对应类别的命名实体.实验结果表明,相较于其他使用同类数据源的挖掘方法,该方法在挖掘效率、召回量以及部分类别的准确率上都有显著提升.

关键词：网页标题命名实体挖掘方法远距监督方法

作者: 胡腾王厚峰赵世奇张超

作者单位: 北京大学,北京 100871;百度公司,北京 100193 北京大学,北京 100871 百度公司,北京 100193

会议类型: 国内会议

会议名称: 中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)

会议地点: 广州

会议语种:中文

页码: 1-10

在线出版日期: 2015-11-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种挖掘网页标题中命名实体的远距监督方法